点估计及矩估计的一些理解

最新推荐文章于 2024-05-31 14:54:28 发布

weixin_34117211

最新推荐文章于 2024-05-31 14:54:28 发布

阅读量1.3k

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/hgz-dm/p/10292943.html

版权

点估计指的是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。在这个定义中，总体参数也即是总体分布的参数，一般我们在讨论总体分布的时候，只有在简单随机样本（样本独立同分布）情况下才有明确的意义，总体分布才能决定样本分布,所以下文样本中各随机变量均为独立同分布。在大数据中分析中，一般都假设样本是独立同分布的。

矩估计方法是点估计中的一种，其原理就是构造样本和总体的矩，然后用样本的矩去估计总体的矩。设有样本 $X_{1},...,X_{n},$ 而k为自然数，则样本矩做如下定义

$a_{nk}=\frac{1}{n}\sum_{i=1}^{n}X^{k}_{i}$

$m_{nk}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X}_{n})^{k}$

其中 $a_{nk}$ 称为k阶样本原点矩， $m_{nk}$ 称为k阶样本中心距， $\bar{X}_{n}$ 为样本均值。 $a_{nk}$ 和 $m_{nk}$ 可以由样本计算得到确定的值。接下来再构造总体 $X$ 的矩。在使用矩估计方法时，一般要求知道总体的分布类型，这样才能构造包含待估参数的矩。

当总体为连续分布时，设 $f(x,\theta )$ 为总体分布的概率密度函数， $\theta$ 为总体分布中的待估参数（假设此处总体分布中只有一个待估参数 $\theta$ ），则总体的k阶原点矩 $\alpha _{k}$ 、k阶中心距 $\mu_{k}$ 分别定义为如下形式

$\alpha _{k}=\int_{-\infty }^{+\infty}x^{k}f(x,\theta )dx$

$\mu _{k}=\int_{-\infty }^{+\infty}(x-E(X))^{k}f(x,\theta )dx$

当总体为离散分布时，设 $P(X=X_{i},\theta )$ 是 $X=X_{i}$ 时的概率，则总体的k阶原点矩 $\alpha _{k}$ 、k阶中心距 $\mu_{k}$ 分别定义为如下形式

$\alpha _{k}=E(X^{k})=\sum_{i=1}^{n}X_{i}^{k}P(X=X_{i},\theta )$

$\mu _{k}=E(X-E(X))^{k}=\sum_{i=1}^{n}(X_{i}-E(X))^{k}P(X=X_{i},\theta )$

在用样本矩估计总体矩时，我们还需要知道样本矩对总体矩而言是无偏估计，还是非无偏估计，这样有助于我们把握估计偏差，下面以样本一阶原点矩 $a _{n1}$ 、二阶中心矩 $m _{n2}$ 为例来估计总体的一阶原点矩 $\alpha _{1}$ 和 $\mu_{2}$ ，观察它们是否为无偏估计

$E(a_{n1})=\frac{1}{n}E(\sum_{i=1}^{n}X_{i})=\frac{1}{n}\sum_{i=1}^{n}E(X) =\alpha _{1}$

可以看到，样本一阶原点矩 $a _{n1}$ 为总体的一阶原点矩 $\alpha _{1}$ 的无偏估计，再看二阶中心矩的估计

$E(m_{k2})=\frac{1}{n}E(\sum_{i=1}^{n}(X_{i}-\bar{X_{n}})^{2}) =\frac{1}{n}E(\sum_{i=1}^{n}(X^{2}_{i}-2X_{i}\bar{X_{n}}+\bar{X_{n}^{2}}))$

$=\frac{1}{n}\sum_{i=1}^{n}E(X_{i}^{2})-\frac{2}{n}\bar{X_{n}}E(\sum_{i=1}^{n}X_{i})+E(\bar{X_{n}^{2}})$

$=\frac{1}{n}\sum_{i=1}^{n}E(X_{i}^{2})-E(\bar{X_{n}^{2}})$

下面分别就 $E(X_{i}^{2})$ 项和 $E(\bar{X_{n}^{2}})$ 项进行计算

$\mu _{2}=\sum _{i=1}^{n}(X_{i}-E(X))^{2}P(X=X_{i},\theta )$

$=\sum _{i=1}^{n}(X_{i}^{2}-2X_{i}E(X)-E^{2}(X))P(X=X_{i},\theta )$ $=\sum _{i=1}^{n}X_{i}^{2}P(X=X_{i},\theta )-2E(X)\sum _{i=1}^{n}X_{i}P(X=X_{i},\theta )-E^{2}(X)\sum _{i=1}^{n}P(X=X_{i},\theta )$

$=E(X_{i}^{2})-E^{2}(X)$

因此可得

$E(X_{i}^{2})=\mu _{2}+E^{2}(X)=\mu _{2}+\alpha^{2} _{1}$ (1)

样本统计量 $\bar{X}_{n}$ 的方差 $Var(\bar{X_{n}})$ 为

$Var(\bar{X_{n}})=E(\bar{X_{n}}-E(\bar{X_{n}}))^{2}$

$=E(\bar{X_{n}^{2}}-2\bar{X_{n}}E(\bar{X_{n}})+E^{2}(\bar{X_{n}}))^{2}$

$=E(\bar{X_{n}^{2}})-E^{2}(\bar{X_{n}})$

可得

$E(\bar{X_{n}^{2}})=Var(\bar{X_{n}})+E^{2}(\bar{X_{n}})$

由于 $\bar{X_{n}}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$ ，且样本中各变量为独立同分布，所以

$Var(\bar{X_{n}})=Var(\frac{\sum_{i=1}^{n}X_{i}}{n})=\frac{1}{n}Var(X)=\frac{1}{n}u_{2}$

$E^{2}(\bar{X_{n}})=E^{2}(\frac{\sum_{i=1}^{n}X_{i}}{n})=\alpha ^{2}_{1}$

这样就得到

$E(\bar{X_{n}^{2}})=\frac{1}{n}\mu _{2}+\alpha^{2} _{1}$ (2)

由式(1)和式(2)，可以得到

$E(m_{k2})=\frac{n-1}{n}\mu _{2}$

可以看到，样本的二阶中心矩并非总体的二阶中心矩的无偏估计，但是我们可以采用因子 $\frac{n-1}{n}$ 来调整这个估计偏差，但一般在应用上不去做调整而是容忍一些偏差存在，在n较大时，这个偏差对于应用无损。

以上的内容只是计算过程推导，而我们更应该关注的是这些矩在实际应用中表示的是什么含义，这更有助于我们分析问题。依据总体的k阶原点矩和中心距，还可以定义以下参数，它们能反应总体分布的一些特征

偏度（Skewness）： $\beta _{1}=\mu _{3}/\mu _{2}^{2/3}$ ，反映总体分布的“非对称性”或“偏倚性”

峰度（Kurtosis）： $\beta _{2}=\mu _{4}/\mu _{2}^{2}$ ，反映总体分布陡峭或平滑的程度

转载于:https://www.cnblogs.com/hgz-dm/p/10292943.html

weixin_34117211

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
点估计及矩估计的一些理解

点估计指的是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。在这个定义中，总体参数也即是总体分布的参数，一般我们在讨论总体分布的时候，只有在简单随机样本（样本独立同分布）情况下才有明确的意义，总体分布才能决定样本分布,所以下文样本中各随机变量均为独立同分布。在大数据中分析中，一般都假设样本是独立同分布的。矩...
复制链接

扫一扫