极大似然估计原理思想

最新推荐文章于 2024-07-28 10:10:44 发布

Sunshine_in_Moon

最新推荐文章于 2024-07-28 10:10:44 发布

阅读量1.2w

点赞数

分类专栏：数学基础机器学习

机器学习同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

数学基础

12 篇文章 0 订阅

订阅专栏

本文转自：

http://blog.csdn.net/poi7777/article/details/23204789

在机器学习的领域内，极大似然估计是最常见的参数估计的方法之一，在这里整理一下它的基本原理。

极大似然估计从根本上遵循——眼见为实，这样的哲学思想。也就是说，它严格地仅仅利用了已知的实验结果，来估计概率模型中的参数。

极大似然估计的计算过程非常简单：

1.写出似然函数

2.求出使得似然函数取最大值的参数的值，这个值就是我们对概率模型中参数值的极大似然估计。

所以，要理解极大似然估计的原理，首先我们得理解什么是似然函数。

举个例子，我们连续掷2次硬币，正面记为H，反面记为T。当硬币质地均匀，出现正反面的概率都是0.5时，P(HH)=0.25。把前一句话全部用数学符号来表达，就是P(HH|H=0.5)=0.25。对于这个式子，我们可以这么理解：当硬币的正反面概率都是0.5时，抛硬币连续出现两次正面的概率是0.25。现在，我们改写一些这个式子，变成P(HH|H=0.6)=0.36。改写后，我们对这个式子的理解也变成了当硬币的正面概率为0.6时，抛硬币连续出现两次正面的概率是0.36。

对比一下改写前后的理解，我们发现同样是面对抛硬币连续出现2次正面的结果，但是正面概率为0.6时得到的值比正面概率为0.5时得到的值要大。这使得我们可以从数值上判断当抛硬币连续出现2次正面时，判断抛出正面的概率为0.6比0.5要更合理。(非常符合我们直观上的判断)

进一步抽象，我们假设抛出正面的概率是a，则式子就变成了P(HH|H=a)=a^2。这时，这个式子就变成了面对抛硬币连续出现两次正面这个实验结果时，我们写出的似然函数。根据前面的结论，为了使结果尽量合理，a的值越大越好，但是这里a的取值在0到1之间，随机a最合理的值是1。直观上理解这个结果，就是说只抛2次硬币，结果出现了2个正面，仅从实验结果上去估计硬币正面的概率，1是最合理的估计。(从直观上看，我们不得不承认确实是这样)

以上的计算过程，其实就是极大似然估计的思想。我们一般求解时，似然函数可能会更加复杂，比如是很多个式子的连乘，求似然函数最大值时，一般使用求导的方法得到结果。

回想一下之前抛硬币的实验，虽然在抛硬币连续出现2次正面的结果下，极大似然估计求得1是硬币正面概率最合理的估计。但是一般情况下没有人会这么估计，这是为什么呢？

原因是我们的头脑中对抛硬币的概率分布有个先验的估计，认为正反面的概率是趋向于相同的。

其实，这两种不同的思路就体现出了贝叶斯学派和频率学派在观点上的根本分歧。极大似然估计是频率学派最经典的方法之一，它从实验结果出发，客观估计参数。而贝叶斯学派则认为世界是按某种规律来分布的，我们只有在假设了某种分布的前提下，才能对世界进行估计，放在这里，就是人们总是会认为正反面的概率是趋向于相同的。