目录
- 中心极限定理
- 随机抽样
- 置信区间
第一部分—中心极限定理
中心极限定理是统计学中的一个非常重要的定理,与大数定理描述某个值的收敛趋势不同,中心极限定理描述的是某种形式的随机变量之和的分布。
什么是中心极限定理
中心极限定理指的是给定一个任意分布的总体,从总体中随机抽取样本量为n的样本,一共抽取N次,然后求出N组样本的均值,这些样本的均值的分布接近正态分布。简而言之,不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
举个小例子:比如要统计中国人的身高,想知道中国人的平均身高。一个一个的量肯定是不现实的,所以需要抽样调查,抽取一定容量的样本,比如每组抽取100个人,一共抽取5000组,求出每组个体的平均身高,根据中心极限定理,这些平均身高呈现出正态分布。数据越多,越接近正态分布。最后,我们就可以用样本均值来估计总体的均值。
注:使用中心极限定理时,并不要求总体本身服从正态分布,可以是任意分布,每组的容量要足够大,但也不要太大,一般认为是大于30即可
第二部分—随机抽样
我们想研究一个总体的某些参数,比如说,均值(平均特征)、方差(分散特征)、中位数、众数,不可能把总体的每一个个体都一一研究,只能抽样,抽取的样本能代表总体,有两个条件:一是抽样的这个个体必须是随机的;二是样本中的每个个体被抽中的概率相同。所有顾名思义,“随机抽样”。比如,我们抽取了一个样本量为n的随机样本,即为
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots ,X_{n}
X1,X2,⋯,Xn,其中,每个
X
i
X_{i}
Xi,i=1,2,…,n,为一个服从总体分布的随机变量,而每一个随机变量都是独立同分布的。一般而言,在概率论中,我们都假设总体服从某一分布,然后研究它的特性和相关计算。虽然我们不知道总体的分布,但它却是本身存在的,我们做抽样,就是要用抽取样本的特性来估计总体的特性。我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
总体的参数,比如,均值,方差都是固定值,但是抽取样本的统计量,根据抽取的样本的变化,会得到不同的结果,进一步说,抽样统计量是一个随机变量,而且是服从总体分布的随机变量,我们将抽样统计量的分布情况,叫做抽样分布。
点估计量:所谓点估计就是由样本x1,x2,…xn确定一个统计量 用它来估计总体的未知参数 ,称为总体参数的估计量。当具体的样本抽出后,可求出样本参数的值。用它做为总体参数的估计值,称做总体参数的点估计,实际上它就是总体未知参数的近似值。
总体均值的点估计量
用样本均值估计总体均值,即
μ
^
=
x
ˉ
\hat{\mu }=\bar{x}
μ^=xˉ
其中,样本均值
x
ˉ
=
∑
x
n
\bar{x}=\frac{\sum x}{n}
xˉ=n∑x
总体方差的点估计量
*不能有惯性思维,认为样本均值可以估计总体均值,那样本方差就可以估计总体方差。Why?因为数据集的方差所度量的是数值与均值的偏离程度,样本所含的数据量一般要远远小于总体所包含的数据量,因此,与总体中的数值偏离均值的程度相比,样本中的数据更有可能分布在均值周围,也就是说,样本包含极端值的可能性较小,所以样本方差估计的结果会偏小
一般的,我们用,
σ
2
^
=
∑
(
x
−
x
ˉ
)
2
n
−
1
\hat{\sigma ^{2}}=\frac{\sum (x-\bar{x})^{2}}{n-1}
σ2^=n−1∑(x−xˉ)2
σ
2
^
\hat{\sigma ^{2}}
σ2^为基于样本的总体方差点估计量,这个公式与样本的方差公式很像,但比样本方差更接近总体方差。
总体方差的点估计量通常用
s
2
s^{2}
s2表示,有
σ
2
^
=
s
2
\hat{\sigma ^{2}}=s^{2}
σ2^=s2其中,
s
2
=
∑
(
x
−
x
ˉ
)
2
n
−
1
s^{2}=\frac{\sum (x-\bar{x})^{2}}{n-1}
s2=n−1∑(x−xˉ)2
均值的抽样分布
我们从所有的样本中得到的样本均值形成一个分布,即为均值的抽样分布。设x1,x2,x3,…,xn为X的独立观察结果,因此,每一个观察结果具有相同的期望和方差。之前,讲过独立观察结果的期望和方差的计算方法。
首先,写出
x
ˉ
\bar{x}
xˉ的计算公式
x
ˉ
=
X
1
+
X
2
+
⋯
+
X
n
n
\bar{x}=\frac{X_{1}+X_{2}+\cdots +X_{n}}{n}
xˉ=nX1+X2+⋯+Xn期望
E
(
x
ˉ
)
E(\bar{x})
E(xˉ)为
E
(
x
ˉ
)
=
E
(
X
1
+
X
2
+
⋯
+
X
n
n
)
E(\bar{x})=E(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})
E(xˉ)=E(nX1+X2+⋯+Xn)
最后有,
E
(
X
ˉ
)
=
1
n
(
n
μ
)
=
μ
E(\bar{X})=\frac{1}{n}(n\mu )=\mu
E(Xˉ)=n1(nμ)=μ
同理,方差
σ
2
\sigma ^{2}
σ2的计算公式为
V
a
r
(
X
ˉ
)
=
V
a
r
(
X
1
+
X
2
+
⋯
+
X
n
n
)
=
V
a
r
(
X
1
+
X
2
+
⋯
X
n
)
n
2
Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}
Var(Xˉ)=Var(nX1+X2+⋯+Xn)=n2Var(X1+X2+⋯Xn)
最后有,
V
a
r
(
X
ˉ
)
=
V
a
r
(
X
1
+
X
2
+
⋯
X
n
)
n
2
=
σ
2
n
Var(\bar{X})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}=\frac{\sigma ^{2}}{n}
Var(Xˉ)=n2Var(X1+X2+⋯Xn)=nσ2
根据中心极限定理,如果X的样本很大,则
X
ˉ
\bar{X}
Xˉ的分布近似为正态分布。
1.二项分布的均值:
如果有
X
∼
B
(
n
,
p
)
X\sim B(n,p)
X∼B(n,p),其中n大于30(此处我在前面的中心极限定理里强调过),我们已经知道,
μ
=
n
p
,
σ
2
=
n
p
(
1
−
p
)
\mu =np,\sigma ^{2}=np(1-p)
μ=np,σ2=np(1−p),根据中心极限定理,有,
X
ˉ
∼
N
(
n
p
,
p
(
1
−
p
)
)
\bar{X}\sim N(np,p(1-p))
Xˉ∼N(np,p(1−p))
2.泊松分布的均值:
如果有
X
∼
P
o
(
λ
)
X\sim Po(\lambda )
X∼Po(λ),n大于30,同时,
μ
=
σ
2
=
λ
\mu=\sigma ^{2}=\lambda
μ=σ2=λ,根据中心极限定理,有,
X
ˉ
∼
N
(
λ
,
λ
n
)
\bar{X}\sim N(\lambda,\frac{\lambda }{n})
Xˉ∼N(λ,nλ)
第三部分—置信区间
为什么要引进置信区间
当总体的规模较大时,我们常常用采用抽样统计的方法,用点估计量估计总体均值、方差。但对于研究数学的人来说,这样做似乎不太严谨,样本的选取也会影响最后的结果。那我们想,与其给出一个精确值作为总体均值的估计值,不如采用另外一种方法,指定一个区间,使得总体均值在这个区间内。
置信水平和置信区间
1. 定义
设总体X的分布函数F(X;
θ
\theta
θ),
θ
\theta
θ未知,对给定值
α
(
(
0
<
α
<
1
)
)
\alpha((0<\alpha<1) )
α((0<α<1)),有两个统计量
θ
^
L
=
θ
^
L
(
X
1
,
⋯
 
,
X
n
)
,
\hat{\theta }_{L}=\hat{\theta }_{L}(X_{1},\cdots ,X_{n}),
θ^L=θ^L(X1,⋯,Xn),
θ
^
U
=
θ
^
U
(
X
1
,
⋯
 
,
X
n
)
,
\hat{\theta }_{U}=\hat{\theta }_{U}(X_{1},\cdots ,X_{n}),
θ^U=θ^U(X1,⋯,Xn),使得
P
{
θ
^
L
(
X
1
,
⋯
 
,
X
n
)
<
θ
<
θ
^
U
(
X
1
,
⋯
 
,
X
n
)
}
≥
1
−
α
P\left \{ \hat{\theta }_{L}(X_{1},\cdots ,X_{n})< \theta < \hat{\theta }_{U}(X_{1},\cdots ,X_{n}) \right \}\geq 1-\alpha
P{θ^L(X1,⋯,Xn)<θ<θ^U(X1,⋯,Xn)}≥1−α则
(
θ
^
L
,
θ
^
U
)
(\hat{\theta }_{L},\hat{\theta }_{U})
(θ^L,θ^U)称为
θ
\theta
θ的置信水平为
1
−
α
1-\alpha
1−α的双侧置信区间;
θ
^
L
,
θ
^
U
\hat{\theta }_{L},\hat{\theta }_{U}
θ^L,θ^U分别为双置信下限和双置信上限。
2.求解置信区间
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
举个栗子:
比如,我们测试了一款糖果的口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。现在我们要求出口味持续时间均值的置信区间。
- 选择总体统计量,这里我们选择为口香糖口味持续时间的均值构建一个置信区间,就是为总体均值 μ \mu μ构建一个置信区间。
- 求出所选统计量的抽样分布。根据前面的知识,我们已经知道,均值的抽样分布的期望和方差为: E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ V a r ( X ˉ ) = σ 2 n Var(\bar{X})=\frac{\sigma ^{2}}{n} Var(Xˉ)=nσ2 μ \mu μ的值未知, σ 2 \sigma ^{2} σ2的值可以根据样本进行估计。此时 X ˉ ∼ N ( μ , s 2 n ) \bar{X}\sim N(\mu ,\frac{s^{2}}{n}) Xˉ∼N(μ,ns2)
- 决定置信水平。置信水平说明这个置信区间包含总体统计量的可能性大小。这里设置为95%,表明总体均值处于置信区间中的概率为0.95.置信区间越宽,置信区间包含总体的几率越大。但置信区间太宽的话,就会失去意义。
- 求出置信上下限。通过计算,我们知道,
X
ˉ
∼
N
(
μ
,
0.25
)
\bar{X}\sim N(\mu ,0.25)
Xˉ∼N(μ,0.25)
图片来源:http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
利用 X ˉ \bar{X} Xˉ的分布我们可以求出a和b的值。为了能够利用正态表,先要对 X ˉ \bar{X} Xˉ进行标准化, Z = X ˉ − μ 0.25 Z=\frac{\bar{X}-\mu }{\sqrt{0.25}} Z=0.25Xˉ−μ其中, Z ∼ Z\sim Z∼ N(0,1)
此时,P(a<Z<b)=0.95.