分段函数的期望和方差_数理统计2:为什么是正态分布,正态分布均值与方差的估计,卡方分布...

上一篇文章提到了一大堆的统计量,但是没有说到它们的用处。今天,我们就会接触到部分估计量,进入到数理统计的第一大范畴——参数估计,同时也会开始使用R语言进行模拟。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!

Part 1:为什么是正态分布

为什么要突然提到正态分布的参数估计?原因有以下几个。首先,正态分布是生活中最常见的分布,许多随机事件的分布可以用正态分布来概括。林德贝格勒维中心极限定理告诉我们,二阶矩存在的独立同分布随机变量列\(\{\xi_n\}\),记它们的和为\(S_n\),\(\mathbb{E}(\xi_1)=\mu\),\(\mathbb{D}(\xi_n)=\sigma^2\),则

\[\frac{S_n-n\mu}{\sqrt{n}\sigma}\stackrel{d}\to N(0,1).

\]

刚刚学完概率论的同学应该对这个结论不陌生。

而中心极限定理的条件实际上并不需要这么强,林德贝格费勒定理去除了同分布的约束,只要\(\{\xi_n\}\)满足\(\forall \tau>0\),

\[\frac{1}{\sum_{k=1}^n\mathbb{D}(\xi_k)}\sum_{k=1}^n\int_{|x+\mathbb{E}(\xi_k)|\ge \tau\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}(x-\mathbb{E}(\xi_k))^2\mathrm{d}F_k(x)\to 0,

\]

就有

\[\frac{\sum_{k=1}^n(\xi_k-\mathbb{E}(\xi_k))}{\sqrt{\sum_{k=1}^n \mathbb{D}(\xi_k)}}\stackrel{d}\to N(0,1).

\]

这说明自然界中微小随机项的累积效应普遍服从中心极限定理。

另外,正态分布的信息完全由两个参数所决定:期望和方差,即前两阶矩。因此,如果我们假定总体是服从正态分布的,就只需要对其两个参数作估计,这给问题的讨论带来方便。最后就是正态分布在实用上的意义了,两个独立正态分布的和、差甚至乘积都是正态分布,这在实用上也很方便,所以许多时候即使总体不服从正态分布,也近似认为服从正态分布。

Part 2:正态分布均值估计

既然正态分布完全由两个参数所决定,那么只要知道出这两个参数的值(或者范围),就能确定总体的全部信息。然而,在实际生活中要获得绝对正确的正态分布参数是不可能的,因为生活中的总体情况总是未知,要认识总体,我们只能从总体中抽取一系列样本,再通过样本性质来估计总体。

最简单的情况是简单随机抽样,这时候每一个样本都和总体具有相同的分布函数或密度函数。具体对于正态分布来说,\(X\sim N(\mu,\sigma^2)\),如果我们抽取了\(n\)个简单随机样本\((X_1,X_2,\cdots,X_n)\),则\(X_1,\cdots,X_n\)之间实际上相互独立,且\(\forall i,X_i\sim N(\mu,\sigma^2)\)。尽管\(\mu\)和\(\sigma^2\)我们未知,但是我们知道一点——它们一定是不会变化的常数,这样,我们能够获得独立且与总体分布相同的样本,通过观测样本构造统计量来估计总体。这种将统计量的观测值作为参数估计的估计方式,称为点估计。

对于总体均值,很自然的一点是用样本均值作为总体均值的估计。似乎没有理由不这么做,但这么做有什么依据吗?我们知道,观测样本具有两重性,所以统计量也具有两重性。要研究用样本均值作为总体均值估计的合理性,必须观察样本均值作为随机变量时的分布。

正态分布具有可加性,这指的是对于相互独立的正态分布,它们的和作为一个随机变量仍然服从正态分布,且均值和方差都是各分量的直接加和。有了这一点,我们就可以研究样本均值的分布了。

\[T_n\xlongequal{def}\sum_{j=1}^nX_j

\\ \bar X=\frac{1}{n}\sum_{j=1}^n X_j=\frac{1}{n}T_n,

\]

由于正态分布服从可加性,因此有

\[T_n\sim N(n\mu,n \sigma^2).

\]

另外,由于正态分布的数乘依然是正态分布,且均值相当于乘上常数,方差相当于乘上常数的平方,所以

\[\bar X=\frac{1}{n}T_n\sim N\left(\mu,\frac{\sigma^2}{n}\right).

\]

直观上来看,样本均值与总体具有相同的均值,但是方差变成了原来的\(n\)分之一。众所周知,方差代表随机变量取值的离散情况,由切比雪夫不等式有\(\forall\varepsilon>0\),

\[\mathbb{P}(|\bar X-\mu|>\varepsilon)\le \frac{\mathbb{D}(\bar X)}{\varepsilon^2}=\frac{\sigma^2}{n\varepsilon^2}.

\]

这个式子表

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值