数理统计：参数估计

最新推荐文章于 2024-07-27 08:16:37 发布

嘿哈哈哈

最新推荐文章于 2024-07-27 08:16:37 发布

阅读量4.4k

点赞数 10

分类专栏：考试攻略读书笔记文章标签：数理统计参数估计一致最小方差无偏估计信息不等式均方误差准则

本文链接：https://blog.csdn.net/qq_39384184/article/details/111938771

版权

读书笔记同时被 2 个专栏收录

106 篇文章 13 订阅

订阅专栏

考试攻略

66 篇文章 40 订阅

订阅专栏

learning why, thinking what, then forgetting how.

随着时间的流逝，知识总会被遗忘和被沉淀，我们无法选择去遗忘那一部分，但是我们可以选择去沉淀那一部分。

教材为：《数理统计（孙海燕等）》

第二章参数估计

在解决实际问题中，当确定了总体的分布族后，我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如，总体的数学期望和方差等。统计推断主要分为参数估计和假设检验，参数估计又分为点估计和区间估计。

2.1 参数的点估计

首先提出参数和参数的估计量的概念。

参数：任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身，也可以是θ的实函数。不局限于参数统计范围，总体数学期望和方差等特征数也看成参数。
参数的估计量：用于估计参数或其实函数的实值统计量。其值称为估计值。

参数估计的实质：构造合适的统计量，作为参数的实函数的估计。

常见的参数估计方法：

替换原理法：
1. 频率替换法
2. 矩估计法
极大似然估计法
EM 算法

2.1.1 频率替换估计

根据样本已知的频率确定一个使用的概率。
将概率表示成待估计量的函数。
将待估计量反解成概率的函数。
使用已知样本频率替换总体概率。

频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

2.1.2 矩估计

由大数定律可知，若总体矩存在，则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在，就可以用相应的样本矩作为总体矩的合理估计。

使用待求的参数的函数表示总体原点矩或总体中心矩。
将待求的参数反解为总体原点矩或总体中心距的函数。
使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

无论总体服从何种分布，只要总体的二阶矩存在，则样本平均值和二阶中心距就分别是总体均值和方差的矩估计。

只有总体矩存在，且总体原点绝对矩存在的阶数大于待估计参数的维数时，才能使用矩估计法来求参数的估计。

根据不同总体矩的选择，矩估计有不唯一性，尽量选择低阶矩来估计参数。

因为样本矩与总体分布的具体表达式无关，因此当总体的分布形式已知时，矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法。

2.1.3 极大似然估计

极大似然估计的直观思想：若在一次试验中，某个试验结果发生，则一般认为试验条件对这个结果的发生有利，也就是说这个结果发生的机会最大。

极大似然估计的前提一定是要假设数据总体的分布，如果不知道数据分布，是无法使用极大似然估计的。

写出联合概率分布函数作为似然函数；
对似然函数取对数，并整理；
求导数，令导数为 0，得到似然方程；
解似然方程，得到的参数即为参数的极大似然估计。

若考虑的参数空间不同，则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围。

如果似然函数的偏导数不存在，或者似然方程组不存在，就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

由因子分解定理得，极大似然估计值一定是充分统计量的函数，这是极大似然估计的优点。而矩估计则不具有这样的性质。

扩展：EM 算法（Expectation-Maximization）

求解似然方程组可以获得极大似然估计的显式解，但是在实际中常常会遇到似然方程组难以求解的情况，此时可以求似然估计的近似解或数值解。常用的求解方法有（1）Newton 法；（2）Fisher 法；（3）EM 算法等。

前提：EM 算法和极大似然估计的前提是一样的，都要假设数据总体的分布，如果不知道数据分布，是无法使用 EM 算法的。

问题描述：有些问题中的参数分为隐含参数和模型参数，且参数之间相互依赖，单个参数易求得，而直接求出所有参数十分困难。因此可以采用迭代的方法，随机初始化一个参数，之后每次迭代求出一个参数，最终会收敛到一个解。

算法流程：

随机初始化模型参数的初始值
迭代：
- E 步：计算隐含参数的条件概率期望
- M 步：计算模型参数的极大似然解
迭代 E-M 步骤直到算法收敛

算法理解：EM 算法可以理解为坐标上升法，类似梯度下降法。梯度下降法的目的是最小化代价函数，坐标上升法的目的是最优化似然函数。如下图所示，为迭代优化的路径，因为优化的函数不能直接求导，因此无法直接使用梯度下降法（或许两部的梯度下降法会有效），E-M 算法每次固定一个变量对另外的变量求极值，逐步逼近极值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

算法分析：E-M 算法可以保证收敛到一个稳定点，但是却不能保证收敛到全局的极大值点，因此它是局部最优的算法。当然，如果我们的优化目标是凸的，则 E-M 算法可以保证收敛到全局极大值，这点和梯度下降法这样的迭代算法相同。

更详细的步骤参见：EM 算法详解：人人都懂 EM 算法