简单抽样技术——样本均值是总体均值的无偏估计

来一点废话,帮助大家理解概率的精髓:

1) 只要谈估计,那就是告诉我们一种方法,利用这个方法可以管中规豹似的获取某个统计量(这个统计量很可能限于人力物力无法真正获取,而我们又很想知道)。

2) 只要是谈估计,那就告诉我们这个估计量本身也是个随机变量,它自身也存在统计特性;

首先,要严格区分均值和期望两个概念!

期望公式:

E(X)=\sum_{i=1}^{n}x_{i}p(i)

均值公式:

\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

显然,它们是不一样的,一个是和元素出现的概率相关,另一个是小学级别的简单粗暴的求平均。

接下来,脑海中,我们可以假设有这么一个集合{y_{1},y_{2},...,y_{N}},大括号里就是这个集合的所有元素。

总体均值就是求的整个集合的均值(假设集合大小是N):

\bar{Y}=\frac{1}{N}\sum_{i=1}^{N}y_{i}

显然\bar{Y}值在集合(也就是我们要研究的对象)和集合大小固定的情况下是一个固定的、并天然就存在的定数(它不是随机变量,好比是一个常数),尽管我们可能并不知道确切的值是多少!因为过我们可能由于费用问题无法将所有个体都进行统计然后求平均。因此,引入抽样的概念。样本均值\bar{y}就是从整个集合中抽取出n个,然后对其就平均:

\bar{y}=\frac{1}{n}\sum_{i=1}^{N}y_{i} \delta {i}

其中\delta {i}为抽样函数:

\delta {i}= \begin{cases} 1 & \text{ if } y_{i}\ is\ selected\\ 0 & \text{ if } y_{i}\ is\ not\ selected \end{cases},并且

\sum_{i=1}^{N}\delta _{i}=n

这里额外进行解释:

1)显然,根据组合原理,从N个元素中抽取n个元素的种类一共是C_{N}^{n}中,也就是\bar{y}的值有C_{N}^{n}种可能。

2)显然\bar{y}值会随着我们实际抽取到的n个样本的不同而不同,因此\bar{y}本身可以被视为随机变量,既然\bar{y}是随机变量,那么它就存在统计量,也就是说讨论\bar{y}的期望和方差是有意义的。

3)这里给出的公式,可能和有些书上的写的不太一样,有些书直接写为\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i},严格意义说写的不够确切,符号y_{i}在总体均值和样本均值中都用到了,容易混乱,致使公式不清、概念不清。本文的样本均值公式体现了抽样概念,更加严格。

在讨论样本均值的期望之前,我们先讨论样本和\sum_{i=1}^{N}y_{i} \delta {i}(其中,\sum_{i=1}^{N}\delta _{i}=n)的期望,我们令H=\sum_{i=1}^{N}y_{i} \delta {i},显然H也是个随机变量,也就是讨论E(H)的值。

前面已经讨论过,从N个元素中抽取n个元素的形成的样本种类是C_{N}^{n}种,因为我们这里讨论的是简单随机抽样,因此每种不同h_{k}(即,H取值h_{k})的概率就是\frac{1}{C_{N}^n}=\frac{n!(N-n)!}{N!}

E(H)=\frac{1}{C_{N}^{n}}\sum_{k=1}^{C_{N}^n}h_{k}

为了确定E(H)求和公式中某个特定元素y_{i}(即,i取特定值,y_{i}的系数)的系数:

所有包含y_{i}的抽样样本集合,肯定包含n-1个其他元素,那么这n-1个其他元素的组合数目就是E(H)求和公式中某个特定元素y_{i}的系数。这个剩余的n-1个元素可以来自剩余的N-1个元素,因此求和公式中存在y_{i}的系(个)数是C_{N-1}^{n-1}

因此有:

E(H)=\frac{n!(N-n)!}{N!}\frac{(N-1)!}{(n-1)!(N-n)!}\sum_{i=1}^{N}y_{i}

=\frac{n}{N}\sum_{i=1}^{N}y_{i}

因此,我们可以得出这么一个结论:

定理 1  样本和的期望是总体总值的\frac{n}{N}.

那么,样本均值的期望就很好求了:

E(\bar{y})=E(\frac{H}{n})=\frac{1}{N}\sum_{i=1}^{N}y_{i}=\bar{Y}

由此,得出新的结论:

定理 2 样本均值\bar{y}是总体均值\bar{Y}的无偏估计量

讲一些方便理解的废话,既然研究了样本均值的期望,那么上面的两个定理的结论应当是限制在简单随机抽样的条件下得出来的。

定理1的结论实际上在抽样理论中更容易被忽视,这个定理需要扩大脑思路,假如要求\sum_{i=1}^{N}(y_{i}-6)^3\delta _{i}的期望:

那么我们要将(y_{i}-6)^3整体看做样本,而不是把y_{i}看做样本,H=\sum_{i=1}^{N}(y_{i}-6)^3\delta _{i}这个求和本身也是一个变量,它的期望可以根据定理1得出是样本总值\sum_{i=1}^{N}(y_{i}-6)^3\frac{n}{N}:

E(H)=\frac{n}{N}\sum_{i=1}^{N}(y_{i}-6)^3

定理2 则告诉我们当总体均值比较难以获取的时候,要估计总体均值可以拿样本均值来替代,这个样本均值在估计方法上还是无偏的。

再回到问题本身,我们一般是无法知道整个集合的总值和均值的,定理2就是告诉我们存在无偏的估计方法,求总体均值,可以拿样本均值来估计总体均值,同样的,如果要估计总体值,只要将样本均值乘以N就可以的。

我们可以得到下面的推论(很容易证明)

推论 \hat{Y}=N\bar{y}是总体总值Y的无偏估计。

 

拿多少样本来估计均值比较合理,这就得讨论样本均值的方差如何了。将会在另一篇文章中进行讨论。

 

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值