统计学的Python实现
文章平均质量分 63
统计学的Python实现
长行
这个作者很懒,什么都没留下…
展开
-
统计学的Python实现-020:已知样本比例的抽样分布
作者:长行时间:2019.03.24统计学解释已知样本比例的抽样分布计算是一种理想的抽样分布算法,通常用来学习抽样理论。其已知的信息为总体的分布特征,并求在抽取一定容量的样本后,样本的分布特征。例如:已知1980年美国总统选举中,有3490万选民支持民主党,有4320万选民支持共和党。求事先随机抽取150位选民能够成功预测共和党胜出的概率。这实际上是二项随机变量的概率计算的一种实际应用。抽取的样本服从二项分布,X~b(n,p),其中n为样本量,p为要研究的事件发生的概率。因此可以使用二项分布的.原创 2020-05-20 12:27:50 · 1105 阅读 · 0 评论 -
统计学的Python实现-019:任意正态分布计算概率
作者:长行时间:2019.03.21统计学解释上次我们介绍了标准正态分布概率计算的方法,现在我们来计算任意正态分布的概率计算方法。首先需要将正态分布通过线性变换将它转化为标准正态分布,其变换公式如下:Z=X−μσZ=\frac{X-\mu}{\sigma}Z=σX−μ其中μ\muμ为正态分布的均值,σ\sigmaσ为标准差;其结果服从于均值为0,标准差为1的标准正态分布。实现代码1.引入计算标准正态分布累积概率的代码import mathdef st_normal_distri.原创 2020-05-20 12:26:45 · 4780 阅读 · 3 评论 -
统计学的Python实现-018:二项随机变量的概率计算
作者:长行时间:2019.03.21统计学解释二项随机变量是指每次试验只会有两种可能结果的试验,我们定义为事件A和事件A的对立事件。此时,在n次重复试验中,事件A发生的次数X服从二项分布(链接),次数X等于k的概率如下:P{X=k}=Cnk(1−p)n−k,k=0,1,2,...,nP\{X=k\}=C^{k}_{n}(1-p)^{n-k},\qquad k=0,1,2,...,nP{X=k}=Cnk(1−p)n−k,k=0,1,2,...,n实现代码下面我们来用Python实现两种功.原创 2020-05-20 12:25:33 · 1182 阅读 · 0 评论 -
统计学的Python实现-017:标准正态分布
作者:长行时间:2019.03.15统计学解释正态分布:正态分布(normal distribution),又称高斯分布;其概率密度(正态分布曲线)呈钟型,两头低,中间高,左右对称。分布如图:(图片参见同名word文件)其概率密度公式为:ϕ(x)=12πσe−(X−μ)22σ2\phi(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(X-\mu)^2}{2\sigma^2}}ϕ(x)=2πσ1e−2σ2(X−μ)2其中σ\sigmaσ为标准差,μ.原创 2020-05-20 12:24:04 · 1477 阅读 · 1 评论 -
统计学的Python实现-016:变异系数
作者:长行时间:2019.03.15统计学解释变异系数:变异系数(coefficient of variation),又称离散系数,是一个衡量数据离散程度的、没有量纲的统计量。其值为标准差与平均值之比。变异系数的计算公式为:CV=σμCV=\frac{\sigma}{\mu}CV=μσ其中σ\sigmaσ为标准差,μ\muμ为均值。代码实现import numpydef coefficient_of_variation(data): mean=numpy.mean(dat.原创 2020-05-20 12:22:59 · 8174 阅读 · 0 评论 -
统计学的Python实现-015:调和平均数
作者:长行时间:2019.03.14统计学解释调和平均数:调和平均数(harmonic mean),又称倒数平均数,是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的倒数的算数平均数的倒数。其计算公式为:H=11n∑i=1n1Xi=n∑i=1n1XiH=\frac{1}{\frac{1}{n}\sum^{n}_{i=1}{\frac{1}{X_i}}}=\frac{n}{\sum^{n}_{i=1}{\frac{1}{X_i}}}H=n1∑i=1nXi11=∑i=1nXi.原创 2020-05-20 12:21:56 · 2834 阅读 · 1 评论 -
统计学的Python实现-014:几何平均数
作者:长行时间:2019.03.13统计学解释几何平均数:几何平均数(geometric mean)是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的乘积的n次方根。其计算公式如下:G=X1×X2×...×Xnn=∏i=1nXinG=\sqrt[n]{{X_1}\times{X_2}\times...\times{X_n}}=\sqrt[n]{\prod_{i=1}^n{X_i}}G=nX1×X2×...×Xn=ni=1∏nXi在一些情况下,我们还会使用加权几何平均数.原创 2020-05-20 12:20:12 · 7743 阅读 · 1 评论 -
统计学的Python实现-013:频度分布表
统计学解释频数分布表:频数分布表,简称频数表,主要用来直接查看数据分布情况。对于离散型随机变量,直接计算每个值出现的频数并列表;对于连续型随机变量,则需要先将数据按等间隔分组,然后统计落在每一个组内的频数。数组 [1,1,1,1,1,2,2,2,2,3,3,3,4,4,5] 在SPSS中的频数分布表如下:(图片参见同名word文件)其中:Frequency在这里指频数,Percent在这里指频率,Valid Percent指有效频率(即剔除了缺失值的频率.原创 2020-05-20 12:15:55 · 2487 阅读 · 0 评论 -
统计学的Python实现-012:峰度
作者:长行时间:2019.03.11统计学解释峰度:峰度是衡量一组数据分布曲线的陡峭程度。其定义式如下:kurtosis=E[(X−μσ)4]=μ4σ4=E[(X−μ)4](E[(X−μ)2])2kurtosis=E[(\frac{X-\mu}{\sigma})^4]=\frac{\mu_4}{\sigma^4}=\frac{E[(X-\mu)^4]}{(E[(X-\mu)^2])^2}kurtosis=E[(σX−μ)4]=σ4μ4=(E[(X−μ)2])2E[(X−μ)4]其中.原创 2020-05-20 12:14:35 · 1099 阅读 · 2 评论 -
统计学的Python实现-011:偏度
作者:长行时间:2019.03.10偏度:偏度(skewness),也称偏态,是衡量统计数据分布偏斜方向和程度的统计量。例如,正态分布的偏度=0,即分布关于均值左右对称。若偏度<0,则说明分布呈左偏态,此时均值左边的数据比右边少;若偏度>0,则说明分布呈右偏态,此时均值右边的数据比左边少;若偏度接近于0,则说明分布是接近对称的。统计学解释偏度的定义式:Skeness=E[(X−μσ)3]=μ3σ3=E[(X−μ)3](E[(X−μ)2])32=k3k232Skeness=E[(.原创 2020-05-20 12:13:20 · 2162 阅读 · 0 评论 -
统计学的Python实现-010:四分位距
作者:长行时间:2019.03.10四分位距:四分位距(interquartile range),是一种衡量一组数据离散程度的统计量,用IQR表示。其值为第一四分位数和第三四分位数的差距。四分位距的计算公式如下:IQR=Q3−Q1IQR=Q_3-Q_1IQR=Q3−Q1其中Q1Q_1Q1为第一四分位数,Q3Q_3Q3为第三四分位数实现代码import mathdata_test=[1,2,3,4,5,6,7,8,9,10,11,12] # 定义测试数据#四分位数计算方法.原创 2020-05-20 12:11:21 · 3333 阅读 · 0 评论 -
统计学的Python实现-009:四分位数
作者:长行时间:2019.03.10四分位数:四分位数(Quartile),也称四分位点,是指把一组数据中的所有数值由小到大排列并分成四等份时,处于三个分割点位置的数值。多应用于箱线图的绘制。四分位数有三个,第一个四分位数称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。统计学解释四分位数位置的确定方法有两种。其一是Excel函数QUARTILE.EXC的方法,也就是SPSS中使用的方法,其确定方法如下:位置Q1=(n+1)×0.25位置_.原创 2020-05-20 12:10:25 · 12598 阅读 · 0 评论 -
统计学的Python实现-008:标准误差
作者:长行时间:2019.03.09标准误差:标准误差是用以衡量统计量的可靠性的统计量;统计量(通常是参数的估计)的标准误差(stand error,SE)是其抽样分布的标准差或该标准差的估计值;如果它衡量的统计量为均值,则该标准误差称为均值的标准误差(standard error of the mean,SEM)。统计学解释总体均值的标准误差的计算公式:KaTeX parse error: Got function '\overline' with no arguments as subsc.原创 2020-05-20 12:09:14 · 5940 阅读 · 0 评论 -
统计学的Python实现-007:标准差
作者:长行时间:2019.03.09标准差:标准差(standard deviation,SD),又称均方差,是衡量一组数据离散程度的统计量,其值为方差的算术平方根。统计学解释总体的标准差计算公式如下:σ=∑(X−μ)2N\sigma = \sqrt\frac{\sum(X-\mu)^2}{N}σ=N∑(X−μ)2其中σ\sigmaσ为总体标准差,XXX为变量值,μ\muμ为总体均值,NNN为总量样本的标准差计算公式如下:S=∑(X−x‾)2nS = \sqrt\frac{\s.原创 2020-05-20 12:07:21 · 1943 阅读 · 0 评论 -
统计学的Python实现-006:方差
作者:长行时间:2019.03.08方差:方差是衡量一组数据离散程度的统计量。统计学中的方差(样本方差)是每个样本值与全体样本值的均值之差的平方的均值。概率论中的方差(总体方差)是随机变量及其数学期望之间的偏离程度。统计学解释总体方差的计算公式如下:σ2=∑(X−μ)2N\sigma^2 = \frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2其中σ2\sigma^2σ2为总体方差,XXX为变量值,μ\muμ为总体均值,NNN为总量样本方差的计算公式如下:S2=∑(.原创 2020-05-20 12:06:28 · 544 阅读 · 1 评论 -
统计学的Python实现-005:最大值、最小值、极差
作者:长行时间:2019.03.08最大值:一组数据当中最大的值。最小值:一组数据当中最小的值。极差:也称“全距”,是一组数据中最大值与最小值之间的距离。实现代码data=[1,3,2,6,7,9,3,2,4] # 先定义一个数组data_max=max(data) # 计算这个数组的最大值print('最大值 =',data_max)data_min=min(data) # 计算这个数组的最小值print('最小值 =',data_min)range=max(data)-m.原创 2020-05-20 12:04:48 · 2803 阅读 · 0 评论 -
统计学的Python实现-002:均值
作者:长行时间:2019.03.07均值:描述一组数据集中趋势的统计量,其值为一组数据中所有数之和除以这组数据的个数,均值用X表示,也称作平均数。原理代码def descriptive_mean(list): sum=0 for i in list: sum+=i return sum/len(list)测试:mean=descriptive_mean([3,1,2,1.5,1.5,1.5]);print(mean)结果:1.75常用代码.原创 2020-05-20 12:04:08 · 514 阅读 · 0 评论 -
统计学的Python实现-001:总计
作者:长行时间:2019.03.08(这一节主要用于不了解Python的初学者探索函数的调用)实现代码def descriptive_sum(data): return sum(data)print(descriptive_sum([1,3.5,5]))运行结果9.5代码解释def descriptive_sum(data): 定义函数description_mean,并设置函数的参数listreturn sum(list)返回函数的结果...原创 2020-05-20 12:02:43 · 390 阅读 · 0 评论 -
统计学的Python实现-004:众数
众数:一组数据中出现次数最多的数值,一组数据可以不存在、存在一个或多个众数,众数用M表示。当所有数据出现次数都相同时,众数不存在。实现思路因为无法直接获知一个数组当中出现频率最高的数值,所以我们需要先统计数组中每一个数值的出现次数,而后再找出所有出现次数最高的数值。其中:记录每个数值的出现次数,可以使用哈希表存储,变量值的值作为key,变量值出现的频数作为value。 若发现变量值列...原创 2019-03-07 14:37:02 · 4421 阅读 · 0 评论 -
统计学的Python实现-003:中位数
中位数:一组数据按顺序排列后位于中间位置的数值。当该组数据中数值个数为奇数时,中位数为中间位置的数值;当该组数据中数值个数为偶数时,中位数为中间位置两个数值的均值。该组数据中最多有一半的数值小于中位数,也最多有一半的数值大于中位数;因为该组数据中可能有若干数值等于中位数。实现代码方法一:通过判断解决数据个数为奇数、偶数的问题def descriptive_median_1(lis...原创 2019-03-08 10:59:54 · 1344 阅读 · 0 评论