极大似然估计(MLE)

最新推荐文章于 2024-02-11 00:13:39 发布

weixin_33984032

最新推荐文章于 2024-02-11 00:13:39 发布

阅读量378

点赞数

文章标签：数据结构与算法人工智能

原文链接：https://juejin.im/post/5b6b14536fb9a04fdd7d83ff

版权

绪言

对概率函数来说，由于它涉及关于所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的困难. 例如，假设样本的个属性都是二值的，则样本空间将有种可能的取值，在现实应用中，这个值往往远大于训练样本数，也就是说，很多样本取值在训练集中根本没有出现，直接使用频率来估计条件概率显然不可行，因为“未被观测到”与“出现的概率为零”通常是不同的.

—— 周志华《机器学习》

我们设关于类别的条件概率为 P(x |c) ，假设 P(x|c) 有确定的形式并且被参数 $\theta$ 唯一确定，那么实际上我们的训练过程就是要利用数据集训练出较为合适的参数 $\theta$ ，即参数估计(parameter estimation)过程 . 这里，我们把 P(x|c) 记为 $P(x |\theta)$ .

似然(likelihood)

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率“意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

—— 维基百科似然函数

上述是似然函数(通常简称似然)在数理统计中的意义，因此极大似然估计即是利用观测结果，对参数进行估计的一种方法。

极大似然估计

对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派(Frequentist) 认为参数虽然未知，但是却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值；贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量，其本身也可有分布，因此可以假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布.

—— 周志华《机器学习》

而频率主义学派的极大似然估计(Maximum Likelihood Estimation，简称 MLE) 在机器学习的一些算法(逻辑回归、朴素贝叶斯等)的推导上有很重要的作用.

设 D_c 为训练集中第类样本所组成的集合，假设它们独立同分布，则参数 $\theta$ 对与数据 D_c 的似然，是

L(\theta) = P(D_c | \theta) = \prod_{x \in D_c} P(x | \theta) \tag{1.1}

式 (1.1) 中的连乘操作易造成下溢，通常使用对数似然(log-likelihood)

\begin{align*} LL(\theta) &= log P(D_c|\theta) \\ &= \sum_{x \in D_c} log P(x|\theta) \end{align*} \tag{1.2}

因此，对参数 $\theta$ 进行极大似然估计，就是去寻找能够最大化似然 $P(D_c|\theta)$ 的参数值 $\theta$ . 即在 $\theta$ 的所有可能取值中，找到一个能使数据出现的“可能性”最大的值.

参考资料：

[1] 周志华. 机器学习[M]. 北京: 清华大学出版社. 2016: 147-154.

[2] 维基百科. 似然函数[DB/OL], https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0, 2018-02-27/2018-07-16.

转载于:https://juejin.im/post/5b6b14536fb9a04fdd7d83ff

weixin_33984032

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
极大似然估计(MLE)

绪言对概率函数来说，由于它涉及关于所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的困难. 例如，假设样本的个属性都是二值的，则样本空间将有种可能的取值，在现实应用中，这个值往往远大于训练样本数，也就是说，很多样本取值在训练集中根本没有出现，直接使用频率来估计条件概率显然不可行，因为“未被观测到”与“出现的概率为零”通常是不同的.—— 周志华《机器学习...
复制链接

扫一扫