learning why, thinking what, then forgetting how.
随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分。
教材为:《数理统计(孙海燕等)》
第二章 参数估计
在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望和方差等。统计推断主要分为参数估计和假设检验,参数估计又分为点估计和区间估计。
2.1 参数的点估计
首先提出参数和参数的估计量的概念。
- 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
- 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。
参数估计的实质:构造合适的统计量,作为参数的实函数的估计。
常见的参数估计方法:
- 替换原理法:
- 频率替换法
- 矩估计法
- 极大似然估计法
- EM 算法
2.1.1 频率替换估计
- 根据样本已知的频率确定一个使用的概率。
- 将概率表示成待估计量的函数。
- 将待估计量反解成概率的函数。
- 使用已知样本频率替换总体概率。
频率替换法所获得的估计可能不是唯一的。需要评估那个较优。
2.1.2 矩估计
由大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计。
- 使用待求的参数的函数表示总体原点矩或总体中心矩。
- 将待求的参数反解为总体原点矩或总体中心距的函数。
- 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。
无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计。
只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。
根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。
因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法。
2.1.3 极大似然估计
极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大。
极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。
- 写出联合概率分布函数作为似然函数;
- 对似然函数取对数,并整理;
- 求导数,令导数为 0,得到似然方程;
- 解似然方程,得到的参数即为参数的极大似然估计。
若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围。
如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。
由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。
扩展:EM 算法(Expectation-Maximization)
求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解或数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。
前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。
问题描述:有些问题中的参数分为隐含参数和模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。
算法流程:
- 随机初始化模型参数的初始值
- 迭代:
- E 步:计算隐含参数的条件概率期望
- M 步:计算模型参数的极大似然解
- 迭代 E-M 步骤直到算法收敛
算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]
算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。
更详细的步骤参见:EM 算法详解:人人都懂 EM 算法
2.2 估计量的评优准则
对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则、无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计。
2.2.1 均方误差准则
评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| ∣T(x)−q(θ)∣。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:
M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)−q(θ)]2=Varθ(T(X))+(Eθ[T(x)−q(θ)])2
即均方误差等于方差加偏差。
总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。
对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则。
2.2.2 无偏估计
无偏估计即偏差为零,其均方误差等于方差。
E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)
E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))
无偏估计的性质:
- 无偏估计要求对于所有的参数 θ,估计都是无偏的。
- 无偏估计可能不存在。
- 若无偏估计存在,则一般是不唯一的。
- 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大。
- 在函数变换下,无偏性可能消失。
2.2.3 一致最小方差无偏估计
一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。
建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差。
提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。
求完全充分统计量:
p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,……,xn;θ)=c(θ)h(x1,x2,……,xn)exp{k=1∑mwk(θ)Tk(x1,x2,……,xn))}
如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。
Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):
- q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)∣S(x)),即为一致最小方差无偏估计。
- 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。
实际的求解一致最小方差无偏估计的方法:
- 求解完全充分统计量,分解后w(θ) 值域包含内点;
- 求解完全充分统计量是否无偏;
- 构造函数使其无偏化。
2.3 信息不等式
无偏估计中方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量和信息不等式。
Fisher 信息量为:
I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[∂θ∂lnp(x;θ)])2=−Eθ[∂θ2∂2lnp(x;θ)]
且 n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界:
V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)≥nI(θ)[q′(θ)]2
若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率: [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q′(θ)]2/Varθ(q^)
一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计。
考试题型
- 求均方误差
- 求频率替换估计
- 求矩估计
- 求极大似然估计
- 求一致最小方差无偏估计
- 凑无偏估计
- 求 Fisher 信息量
- 判断一致最小方差无偏估计是否有效
历年考题
2019
2016
2015
2014