通俗理解
极大似然估计(MLE)和矩估计是数理统计中进行参数估计常用方法.通常我们假设观测到的样本 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn均是从一个统计模型 X ∼ F ( x ; θ ) X\sim F(x;\theta) X∼F(x;θ)随机抽样得到,即n个样本独立同分布,由此可以将联合密度函数写成边际分布函数的连乘形式. P ( X 1 , X 2 , … , X n ∣ θ ) = ∏ i = 1 n P ( X i ∣ θ ) P(X_1,X_2,\dots,X_n|\theta)=\prod_{i=1}^{n}P(X_i|\theta) P(X1,X2,…,Xn∣θ)=i=1∏nP(Xi∣θ)
极大似然估计需要我们利用已知的观测对统计模型中的未知参数进行推断(此时,统计模型的分布类型是知道的,如正态分布、泊松分布等).一般情况下,人们定义MLE为:所得参数可以使观测到事件 ( X 1 , X 2 , … , X n ) (X_1,X_2,\dots,X_n) (X1,X2,…,Xn)发生的概率达到最大.即 θ ^ M L E = arg max θ ∈ Θ P ( X 1 , X 2 , … , X n ∣ θ ) \hat{\theta}_{MLE}=\underset{\theta \in \Theta}{\arg\max}P(X_1,X_2,\dots,X_n|\theta) θ^MLE=θ∈ΘargmaxP(X1,X2,…,Xn∣θ)
其中 Θ \Theta Θ表示参数空间.
上面的表达式是极大似然估计最根本的定义,从名称上也不难看出,似然 → \rightarrow →likelihood → \rightarrow →可能性,即估计参数需要极大化观测发生的可能性.到此为止,极大似然估计的原理已经非常的清晰,但是进一步考虑一下这个问题:既然任何由样本的到的统计量都可以称为是参数 θ \theta θ的一个估计,那么极大似然估计与其他估计相比的合理性在哪里呢?或者为什么使观测发生概率达到最大的估计更好呢?
参数估计
回到最初的问题,现在已知随机变量的分布类型和一些观测样本.假设统计模型的真实参数为 θ ∗ \theta^* θ∗,一个最直观的想法是:估计分布