当对海量数据进行数据分析,查看数据分布情况的时候比较困难。就需要对样本进行抽样,通过抽样样本分布情况来反映总体样本的分布情况。
目录
1.统计量
2.由正态分布导出的几个重要分布
3.样本均值分布与中心极限定理
4.样本比例/均值之差/方差的分布
一、统计量
定义:x1,x2,....xn是从总体中抽取的容量为n的一个样本,如果由这些样本构造一个函数
T(x1,x2,...xn)不依赖于任何参数,则称函数T(x1,x2,...xn)为一个统计量
例如:样本均值 x均 = 1/n · Σxi 用样本均值 来反映总体数据的信息
样本方差 S² = 1/n ·Σ(xi - x均) 用样本方差来反映总体方差的信息
样本变异系数:V = S / X均值 ,反映总体变异系数的信息
它反映出随机变量在以它的均值为单位时取值的离散程度,常用来刻画均值不同的不同总体的离散程度
样本K阶矩: 反映出总体k阶矩的信息。当k为1是 为样本均值
样本偏度:反映了总体样本偏度信息。偏度代表随机变量密度曲线在众数两边的对称偏斜性
s是样本的标准差,m3是样本的3阶中心距
样本峰度:反映了总体样本峰度信息。峰度代表密度函数曲线在众数附近的“峰”的尖峭程度
m4是样本四阶平均距,m2是样本二阶平均距
次序统计量:设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2),…,x(n),则称X(1),X(2), …,X(n)为顺序统计量
R(n)=x(n) - x(1)为样本极差,极差反映了样本中最大值与最小值之间的差
充分统计量:对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量
二、由正态分布导出的重要分布
有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布,t分布和F分布
卡方分布
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布
卡方分布性质:分布的形状取决于其自由度n的大小,通常为不对称的正偏态分布,但随着自由度的增大逐渐趋近与对称,期望为E = n ,方差为D =2n;若U和V为两个独立的卡方分布 U的自由度为n1
V的自由度为n2,U+V的自由度为n1+n2
t分布
说起t分布,首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)。
由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。
设随机变量T ~ tn,则其密度函数为
该密度函数的图形如下:
若T ∼ tn,记p(|T|>c)=a,则c=tn(a/2)为自由度为n的t分布的双侧a分位数(如上图所示). 当给定a时,tn(a),tn(a/2)等可通过查表求出. 例如t12(0.05)=1.782,t9(0.025)=2.262 等。
t变量具有下列的性质:
1)若随机变量T~tn,则当n>=2时,E(T)=0;当n>=3时,Var(T) =n/(n-2)
2)当n-> ∞ 时,t变量的极限分布为N(0,1)
F分布
建立在卡方分布之上,两个卡方分布比值即为F分布。
U为自由度为n1的卡方分布,V为自由度为n2的卡方分布
F =(U/n1)/(V/n2)
设随机变量x服从F(m,n)分布,则数学期望和方差分别为
E(x) =n/(n-2),n>2
D(x) =2n²(m+n-2) / m(n-2)(n-4) , n >4
三、样本均值抽样分布与中心极限定理
样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理
四、样本比例/均值之差/方差的分布
样本比例的抽样分布
在重复选取容量为n的样本时,由样本比例所有可能取值形成的相对频数分布
当样本容量很大时,样本比例的抽样分布可用正态分布近似
样本比例的期望 E(p)= π
样本比例的方差
重复抽样 σ² = π(1-π) / n
不重复抽样 σ² = π(1-π) / n [(N-n) / (N-1) ]
两个样本均值之差的抽样分布
两个总体都为正态分布,即X1,X2;两个样本均值之差x1均值- x2均值的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差
E(x1均值- x2均值) = u1 - u2
方差为各自的方差之和 σ =σ1² / n1 + σ2² /n2
样本方差的分布
在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本,则比值 (n-1)s² / σ ² 的抽样分布服从自由度为(n-1)的卡方分布
(n-1)s²/σ² ~X²(n-1)
两个样本方差比的分布
两个总体都为正态分布,即X1~N(u1,σ1²) ,X2~N(u2,σ2² )
从两个总体中分别抽取容量为n1和n2的独立样本,两个样本方差比的抽样分布,服从分子自由度为(n1 -1),分母自由度为(n2-1)的F分布
S1² / S2² ~F(n1-1,n2-1)
往期精选
机器学习|梯度下降法
机器学习|逻辑回归
机器学习|决策树
机器学习|随机森林
机器学习|Adaboost
数据分析|数据的整理&展示
数据分析|数据分布特征的描述
数据分析|概率分布
关注公众号,加小编微信即可拉入线上交流群