随机抽样(Random Sampling)和随机变量(Random Variable)
我们想研究一个总体(Population)或叫母体的某些参数(Parameter),比如均值(平均特征)、方差(分散的特征)、中位数(比例的特征),我们很多情况下,不能把所有的个体分别研究,例如我们想研究中国的成年女性罩杯的大小,总不能把所有中国女人的胸都两个两个拿来测吧?所以,我们只能抽样。相对的,如果全面地,一个一个地查,那叫普查。通常,样本总体可能太大,甚至就是抽象无限的,所以普查不可行,我们只能抽样。可是,我们要研究的是总体的特征啊,你只给我个抽样的,你怎么给我保证,你的抽样能代表总体?这是一个关键的问题。这里有两个前提,第一是,抽样这个行为必须是随机的;第二是,样本中的每个个体有相同的概率被抽中。这两点可以统一归纳为一个名词–随机抽样(Random Sampling)。通过随机抽样抽出的样本,例如,我们抽 n n 个,他们就是这个总体的容量为的随机样本,记为
一般大学里都是先教概率论再教统计,所以有时候容易忽略总体的数据是难以获得的这一现实,因为在概率论中我们都假设总体就服从某一分布,然后来研究它的一些特性和相关定理和计算的问题。虽然我们不知道总体的分布,但它却是本身就存在的,我们做抽样,就是要用抽样样本的统计特性去估计总体的特性。也是为了达成这个目的,我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
抽样分布大致概念
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
上表从上到下分别对应均值、方差、比例三个特性,在总体中我们管它们叫参数,在抽样的样本中我们叫统计量。它们有什么区别?总体的这些参数,之所以敢叫参数,是因为它们是有把握确定的。例如统计全体中国公民的身高,我把十三四亿人的身高全测了一遍,一个不漏,来算平均值,我可以很有自信的说,这就是中国所有公民的平均身高。这样算出来的均值,它可以为你研究这个总体提供一个参考,因此也配得上叫参数。但样本就不一样所以,首先样本容量肯定是小于而且基本上是远小于总体容量的,比方说我们样本容量 n=500 n = 500 好了,那么我一次抽500个人,有可能求出来的平均身高是 175cm 175 c m ,可是我下一次抽,可能只有 160cm 160 c m 了。
所以说,总体的参数,是这个总体固有的,与生俱来的,例如给定一个总体的身高,它的平均身高也就定了,而抽样的统计量却是根据抽样不同而不同的,可能有时候抽的高有时候抽的矮,是有误差的。更进一步的,这些抽样的统计量,如 X¯,S2,p^ X ¯ , S 2 , p ^ ,它们还是随机变量。例如,总体是中国全体公民,每次抽500个人算平均身高(就把每个样本身高累加除以500),这个身高是一个随机变量(实际上,它就是这些样本的函数,当然会是随机变量,因为这些样本都是服从整体分布的随机变量),这个随机变量可能大可能小,但它服从一定的分布。这些抽样统计量的分布情况,就叫做抽样分布。
抽样分布–统计量的分布
有了以上的基础,我们以统计量的均值和方差为例,简要讨论它们的抽样分布。它们的计算式如下:
样本均值很好理解,就是把所有的样本值相加除以样本容量。但方差要除以 n−1 n − 1 可能就不太好理解了。既然说讨论分布,我们理所应当就应该讨论一下它们的特性,例如均值,方差等。
对,就是要讨论“均值的均值”。
我们说了,以测量身高为例,可能这个均值一会儿大一会儿小,因此,单个样本的均值是没多大意义的。但是我们也说了这个样本的均值是服从一定分布的。例如我们原来的样本服从标准正态分布,那么可以想象的是这个均值也一定会服从正态分布,不过就不一定是标准的了。还是以身高为例吧,假设我们的样本容量是500,我们就把抽500个人测身高算一次实验,那么我们做多次实验,每次实验算平均身高,再把这些平均身高再平均一次,假设我们的实验足够多,最后肯定会得到跟总体一样的平均身高吧。这其实说明了一件事,那就是
那如何理解方差的计算呢?方差就是差异的大小嘛,差异就是跟期望比嘛,我们实在是没有期望,就只好和样本均值比咯。但是我认为关键的地方是要理解为什么要除以一个数。我们还是抽500个人,在中国,要你在街上找1个185的人,很轻松吧,至少不难。要你同时找10个,平均身高185,可能有点难,但还是可能的。这时,我告诉你,给我找500个平均身高185的人……拜托,中国成年男性2010年人口普查平均身高才167……所以嘛,如果500个人,均值要为185,是比随机抽一个人,或10个人均值为185的难度都要大很多对不对,因此,它肯定是更集中分布,也就是那种本来总体就比较少的情况,在样本的均值里面更加小概率出现了。因此它的方差肯定是更小了,要除一个数,那么除什么呢,除
n−1
n
−
1
。为什么?可以看这里
暂时没时间写了,遛了……