分段函数的期望和方差_数理统计2：为什么是正态分布，正态分布均值与方差的估计，卡方分布...

妍和时

于 2021-02-05 06:09:48 发布

阅读量2k

点赞数

文章标签：分段函数的期望和方差

本文链接：https://blog.csdn.net/weixin_32260275/article/details/113693794

版权

本文探讨了正态分布参数估计的重要性，介绍了正态分布广泛存在及中心极限定理。文章通过点估计的概念，详细分析了样本均值作为总体均值的无偏、弱相合性估计，以及样本方差作为总体方差的无偏、相合性估计。同时，文章通过R语言进行模拟，展示了样本均值和方差的分布特性，证实了样本均值与样本方差的独立性。此外，还引入了卡方分布的概念，为后续参数估计的深入讨论奠定了基础。

摘要由CSDN通过智能技术生成

上一篇文章提到了一大堆的统计量，但是没有说到它们的用处。今天，我们就会接触到部分估计量，进入到数理统计的第一大范畴——参数估计，同时也会开始使用R语言进行模拟。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：为什么是正态分布

为什么要突然提到正态分布的参数估计？原因有以下几个。首先，正态分布是生活中最常见的分布，许多随机事件的分布可以用正态分布来概括。林德贝格勒维中心极限定理告诉我们，二阶矩存在的独立同分布随机变量列\(\{\xi_n\}\)，记它们的和为\(S_n\)，\(\mathbb{E}(\xi_1)=\mu\)，\(\mathbb{D}(\xi_n)=\sigma^2\)，则

\[\frac{S_n-n\mu}{\sqrt{n}\sigma}\stackrel{d}\to N(0,1).

刚刚学完概率论的同学应该对这个结论不陌生。

而中心极限定理的条件实际上并不需要这么强，林德贝格费勒定理去除了同分布的约束，只要\(\{\xi_n\}\)满足\(\forall \tau>0\)，

\[\frac{1}{\sum_{k=1}^n\mathbb{D}(\xi_k)}\sum_{k=1}^n\int_{|x+\mathbb{E}(\xi_k)|\ge \tau\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}(x-\mathbb{E}(\xi_k))^2\mathrm{d}F_k(x)\to 0,

就有

\[\frac{\sum_{k=1}^n(\xi_k-\mathbb{E}(\xi_k))}{\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}\stackrel{d}\to N(0,1).

这说明自然界中微小随机项的累积效应普遍服从中心极限定理。

另外，正态分布的信息完全由两个参数所决定：期望和方差，即前两阶矩。因此，如果我们假定总体是服从正态分布的，就只需要对其两个参数作估计，这给问题的讨论带来方便。最后就是正态分布在实用上的意义了，两个独立正态分布的和、差甚至乘积都是正态分布，这在实用上也很方便，所以许多时候即使总体不服从正态分布，也近似认为服从正态分布。

Part 2：正态分布均值估计

既然正态分布完全由两个参数所决定，那么只要知道出这两个参数的值(或者范围)，就能确定总体的全部信息。然而，在实际生活中要获得绝对正确的正态分布参数是不可能的，因为生活中的总体情况总是未知，要认识总体，我们只能从总体中抽取一系列样本，再通过样本性质来估计总体。

最简单的情况是简单随机抽样，这时候每一个样本都和总体具有相同的分布函数或密度函数。具体对于正态分布来说，\(X\sim N(\mu,\sigma^2)\)，如果我们抽取了\(n\)个简单随机样本\((X_1,X_2,\cdots,X_n)\)，则\(X_1,\cdots,X_n\)之间实际上相互独立，且\(\forall i,X_i\sim N(\mu,\sigma^2)\)。尽管\(\mu\)和\(\sigma^2\)我们未知，但是我们知道一点——它们一定是不会变化的常数，这样，我们能够获得独立且与总体分布相同的样本，通过观测样本构造统计量来估计总体。这种将统计量的观测值作为参数估计的估计方式，称为点估计。

对于总体均值，很自然的一点是用样本均值作为总体均值的估计。似乎没有理由不这么做，但这么做有什么依据吗？我们知道，观测样本具有两重性，所以统计量也具有两重性。要研究用样本均值作为总体均值估计的合理性，必须观察样本均值作为随机变量时的分布。

正态分布具有可加性，这指的是对于相互独立的正态分布，它们的和作为一个随机变量仍然服从正态分布，且均值和方差都是各分量的直接加和。有了这一点，我们就可以研究样本均值的分布了。

\[T_n\xlongequal{def}\sum_{j=1}^nX_j

\\ \bar X=\frac{1}{n}\sum_{j=1}^n X_j=\frac{1}{n}T_n,

由于正态分布服从可加性，因此有

\[T_n\sim N(n\mu,n \sigma^2).

另外，由于正态分布的数乘依然是正态分布，且均值相当于乘上常数，方差相当于乘上常数的平方，所以

\[\bar X=\frac{1}{n}T_n\sim N\left(\mu,\frac{\sigma^2}{n}\right).

直观上来看，样本均值与总体具有相同的均值，但是方差变成了原来的\(n\)分之一。众所周知，方差代表随机变量取值的离散情况，由切比雪夫不等式有\(\forall\varepsilon>0\)，

\[\mathbb{P}(|\bar X-\mu|>\varepsilon)\le \frac{\mathbb{D}(\bar X)}{\varepsilon^2}=\frac{\sigma^2}{n\varepsilon^2}.

这个式子表