本专栏循序渐进地进行讲解统计学知识,建议大家浏览专栏的目录结构,按顺序浏览01.[必读]目录.
(1)中间值和均值
表现"中间值"的统计名词:
a.均值: mean,数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数.
b.中位值: median,等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值.
c.众数: mode,等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数.
在统计学中,为了区分"样本(抽样)概念"和"总体概念",将均值区分为样本均值和总体均值,而它们的实际大小是相同的.
总体均值
样本均值
(2)总体方差
方差(variance)是衡量随机变量或一组数据时离散程度的度量。
公式解析:
1.因为和样本数无关,所以分母为样本数
2.累加每个值和均值差值的平方,对应于每个值相对于均值的偏差,对应于离散程度,
平方是对离散程度的加剧,同时能让差值总为正数,以符合偏差的概念意义
3.显然,如果所有数值都乘以n倍,总体方差会乘以
总体方差的使用:[2,2,3,3]和[0,0,5,5]两组数据拥有相同的均值、中位值,但是离散程度却不相同,见下面程序解答。
import numpy as np
a1= np.array([0,0,5,5])
a2= np.array([2,2,3,3])
print (a1.var() , a2.var()) # 6.25 0.25
print (a1.std() ,a2.std()) # 2.5 0.5
print (a1.var(ddof=1) , a2.var(ddof=1)) #ddof = 1代表样本的方差和标准差
print (a1.std(ddof=1) ,a2.std(ddof=1))
(3)基于概率模型的总体方差:
某种概率模型中得到0的概率为40%,得到1的概率为60%,这个模型实际上是一种伯努利验证,运行足够多次模型后,所有得到的值的方差为是多少呢?
这里期望E为0.6,E也意味着预期的均值,所以这里方差为:
二项分布的均值和方差公式:
(4)样本方差
样本方差是指总体各单位变量值与其算术平均数的离差平方的平均数。
样本方差的意义是用来估计总体方差(统计术语:样本方差是对总体方差的无偏估计),样本方差计算公式和总体方差不同.
注意上述公式分母由总体方差的N变为了n-1,使得样本方差更能反映总体方差。
n-1的由来如下:
假设所有粉色点为总体,橙色选中的为样本,因为样本范围可能不包含总体均值,所以样本方差如果以样本个数n作为分母,就往往比总体方差小一点。
n-1的详细理解:为什么样本方差(sample variance)的分母是 n-1?www.zhihu.com
用python计算样本方差(和标准差):
import numpy as np
a1= np.array([0,0,5,5])
a2= np.array([2,2,3,3])
print (a1.var(ddof=1) , a2.var(ddof=1)) #ddof = 1代表样本的方差和标准差
print (a1.std(ddof=1) ,a2.std(ddof=1))
(5)标准差:就是
标准差相比方差的好处:
1.和原始数值的单位一致,不需要使用单位的平方.
2.标准差可以计算钟型曲线(正态分布)的中心值临近区间的概率值,根据正态分布定义,中心值的正负n倍
3.在大样本中一般使用样本的标准差近似代替总体的标准差,尽管样本标准差并不是理论上的无偏值,小样本中偏差会比较大,但仍然可以通过t分布模型等方法去估算。
(6)节省计算机内存的总体方差的计算方式
通过下面方式的最后一行来表示方差,只需从左到右读取数值,不需要单独计算均值,节省计算机计算内存:
(7)多个独立变量的方差
随机变量独立的充要条件:
对于连续型随机变量有:F(X,Y)=FX(X)FY(Y),f(x,y)=fx(x)fy(y);
对于离散型随机变量有:P(AB)=P(A)P(B)
统计学中,从两个随机的正态分布数据集中各随机抽取1个值,这两个值就是独立的。
设X和Y为独立变量:
(8)多个独立变量的均值
下一章内容:
袁杰雄:03.随机变量和3F(PDF、CDF、PMF)zhuanlan.zhihu.com