来一点废话,帮助大家理解概率的精髓:
1) 只要谈估计,那就是告诉我们一种方法,利用这个方法可以管中规豹似的获取某个统计量(这个统计量很可能限于人力物力无法真正获取,而我们又很想知道)。
2) 只要是谈估计,那就告诉我们这个估计量本身也是个随机变量,它自身也存在统计特性;
首先,要严格区分均值和期望两个概念!
期望公式:
均值公式:
显然,它们是不一样的,一个是和元素出现的概率相关,另一个是小学级别的简单粗暴的求平均。
接下来,脑海中,我们可以假设有这么一个集合{},大括号里就是这个集合的所有元素。
总体均值就是求的整个集合的均值(假设集合大小是):
显然值在集合(也就是我们要研究的对象)和集合大小固定的情况下是一个固定的、并天然就存在的定数(它不是随机变量,好比是一个常数),尽管我们可能并不知道确切的值是多少!因为过我们可能由于费用问题无法将所有个体都进行统计然后求平均。因此,引入抽样的概念。样本均值就是从整个集合中抽取出个,然后对其就平均:
,
其中为抽样函数:
,并且
这里额外进行解释:
1)显然,根据组合原理,从个元素中抽取个元素的种类一共是中,也就是的值有种可能。
2)显然值会随着我们实际抽取到的个样本的不同而不同,因此本身可以被视为随机变量,既然是随机变量,那么它就存在统计量,也就是说讨论的期望和方差是有意义的。
3)这里给出的公式,可能和有些书上的写的不太一样,有些书直接写为,严格意义说写的不够确切,符号在总体均值和样本均值中都用到了,容易混乱,致使公式不清、概念不清。本文的样本均值公式体现了抽样概念,更加严格。
在讨论样本均值的期望之前,我们先讨论样本和(其中,)的期望,我们令,显然也是个随机变量,也就是讨论的值。
前面已经讨论过,从个元素中抽取个元素的形成的样本种类是种,因为我们这里讨论的是简单随机抽样,因此每种不同(即,取值)的概率就是。
为了确定求和公式中某个特定元素(即,取特定值,的系数)的系数:
所有包含的抽样样本集合,肯定包含n-1个其他元素,那么这n-1个其他元素的组合数目就是求和公式中某个特定元素的系数。这个剩余的n-1个元素可以来自剩余的N-1个元素,因此求和公式中存在的系(个)数是。
因此有:
因此,我们可以得出这么一个结论:
定理 1 样本和的期望是总体总值的.
那么,样本均值的期望就很好求了:
由此,得出新的结论:
定理 2 样本均值是总体均值的无偏估计量。
讲一些方便理解的废话,既然研究了样本均值的期望,那么上面的两个定理的结论应当是限制在简单随机抽样的条件下得出来的。
定理1的结论实际上在抽样理论中更容易被忽视,这个定理需要扩大脑思路,假如要求的期望:
那么我们要将整体看做样本,而不是把看做样本,这个求和本身也是一个变量,它的期望可以根据定理1得出是样本总值的:
定理2 则告诉我们当总体均值比较难以获取的时候,要估计总体均值可以拿样本均值来替代,这个样本均值在估计方法上还是无偏的。
再回到问题本身,我们一般是无法知道整个集合的总值和均值的,定理2就是告诉我们存在无偏的估计方法,求总体均值,可以拿样本均值来估计总体均值,同样的,如果要估计总体值,只要将样本均值乘以N就可以的。
我们可以得到下面的推论(很容易证明)
推论 是总体总值的无偏估计。
拿多少样本来估计均值比较合理,这就得讨论样本均值的方差如何了。将会在另一篇文章中进行讨论。