上一篇文章提到了一大堆的统计量,但是没有说到它们的用处。今天,我们就会接触到部分估计量,进入到数理统计的第一大范畴——参数估计,同时也会开始使用R语言进行模拟。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!
Part 1:为什么是正态分布
为什么要突然提到正态分布的参数估计?原因有以下几个。首先,正态分布是生活中最常见的分布,许多随机事件的分布可以用正态分布来概括。林德贝格勒维中心极限定理告诉我们,二阶矩存在的独立同分布随机变量列\(\{\xi_n\}\),记它们的和为\(S_n\),\(\mathbb{E}(\xi_1)=\mu\),\(\mathbb{D}(\xi_n)=\sigma^2\),则
\[\frac{S_n-n\mu}{\sqrt{n}\sigma}\stackrel{d}\to N(0,1).
\]
刚刚学完概率论的同学应该对这个结论不陌生。
而中心极限定理的条件实际上并不需要这么强,林德贝格费勒定理去除了同分布的约束,只要\(\{\xi_n\}\)满足\(\forall \tau>0\),
\[\frac{1}{\sum_{k=1}^n\mathbb{D}(\xi_k)}\sum_{k=1}^n\int_{|x+\mathbb{E}(\xi_k)|\ge \tau\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}(x-\mathbb{E}(\xi_k))^2\mathrm{d}F_k(x)\to 0,
\]
就有
\[\frac{\sum_{k=1}^n(\xi_k-\mathbb{E}(\xi_k))}{\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}\stackrel{d}\to N(0,1).
\]
这说明自然界中微小随机项的累积效应普遍服从中心极限定理。
另外,正态分布的信息完全由两个参数所决定:期望和方差,即前两阶矩。因此,如果我们假定总体是服从正态分布的,就只需要对其两个参数作估计,这给问题的讨论带来方便。最后就是正态分布在实用上的意义了,两个独立正态分布的和、差甚至乘积都是正态分布,这在实用上也很方便,所以许多时候即使总体不服从正态分布,也近似认为服从正态分布。
Part 2:正态分布均值估计
既然正态分布完全由两个参数所决定,那么只要知道出这两个参数的值(或者范围),就能确定总体的全部信息。然而,在实际生活中要获得绝对正确的正态分布参数是不可能的,因为生活中的总体情况总是未知,要认识总体,我们只能从总体中抽取一系列样本,再通过样本性质来估计总体。
最简单的情况是简单随机抽样,这时候每一个样本都和总体具有相同的分布函数或密度函数。具体对于正态分布来说,\(X\sim N(\mu,\sigma^2)\),如果我们抽取了\(n\)个简单随机样本\((X_1,X_2,\cdots,X_n)\),则\(X_1,\cdots,X_n\)之间实际上相互独立,且\(\forall i,X_i\sim N(\mu,\sigma^2)\)。尽管\(\mu\)和\(\sigma^2\)我们未知,但是我们知道一点——它们一定是不会变化的常数,这样,我们能够获得独立且与总体分布相同的样本,通过观测样本构造统计量来估计总体。这种将统计量的观测值作为参数估计的估计方式,称为点估计。
对于总体均值,很自然的一点是用样本均值作为总体均值的估计。似乎没有理由不这么做,但这么做有什么依据吗?我们知道,观测样本具有两重性,所以统计量也具有两重性。要研究用样本均值作为总体均值估计的合理性,必须观察样本均值作为随机变量时的分布。
正态分布具有可加性,这指的是对于相互独立的正态分布,它们的和作为一个随机变量仍然服从正态分布,且均值和方差都是各分量的直接加和。有了这一点,我们就可以研究样本均值的分布了。
\[T_n\xlongequal{def}\sum_{j=1}^nX_j
\\ \bar X=\frac{1}{n}\sum_{j=1}^n X_j=\frac{1}{n}T_n,
\]
由于正态分布服从可加性,因此有
\[T_n\sim N(n\mu,n \sigma^2).
\]
另外,由于正态分布的数乘依然是正态分布,且均值相当于乘上常数,方差相当于乘上常数的平方,所以
\[\bar X=\frac{1}{n}T_n\sim N\left(\mu,\frac{\sigma^2}{n}\right).
\]
直观上来看,样本均值与总体具有相同的均值,但是方差变成了原来的\(n\)分之一。众所周知,方差代表随机变量取值的离散情况,由切比雪夫不等式有\(\forall\varepsilon>0\),
\[\mathbb{P}(|\bar X-\mu|>\varepsilon)\le \frac{\mathbb{D}(\bar X)}{\varepsilon^2}=\frac{\sigma^2}{n\varepsilon^2}.
\]
这个式子表