最大似然,最小二乘,最大后验

最新推荐文章于 2021-11-09 00:39:57 发布

�Adair�

最新推荐文章于 2021-11-09 00:39:57 发布

阅读量451

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/ADwaiwai/article/details/103017638

版权

本文详细介绍了最大似然估计（MLE）和最小二乘法（OLS）的原理及其区别。最大似然估计需要分布假设，而最小二乘法不作此假设，但在高斯分布下两者等价。最大后验概率（MAP）是最大似然估计的推广，考虑了参数的先验分布。最小二乘法通过最小化误差平方和来求解，而最大似然估计则通过最大化目标值的似然概率。尽管在某些特定情况下两者结果相同，但它们的理论基础和出发点不同。

摘要由CSDN通过智能技术生成

最大似然,最小二乘,最大后验

最大似然估计是需要有分布假设的，属于参数统计，如果连分布函数都不知道，又怎么能列出似然函数呢？而最小二乘法则没有这个假设。二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题，最大似然估计不一定是。

那么为啥有这么多人把MLE和OLSE搞混，因为当likelihood用于gaussian的时候，由于gaussian kernel里有个类似于Euclidean distance的东西，一求log就变成square loss了，导致解和OLSE是一样的。而碰巧刚接触MLE的时候基本都是gaussian假设，这才导致很多人分不清楚。

看似最小二乘估计与最大似然估计在推导得到的结果很相似，但是其前提条件必须引起大家注意！！！

对于最小二乘估计，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小，其推导过程如下所示。其中Q表示误差，Yi表示估计值，Yi’表示观测值。
在这里插入图片描述

对于最大似然法，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是概率分布函数或者说是似然函数最大。显然，这是从不同原理出发的两种参数估计方法。因此最大似然法需要已知这个概率分布函数，一般假设其满足正态分布函数的特性，在这种情况下，最大似然估计和最小二乘估计是等价的，也就是说估计结果是相同的，但是原理和出发点完全不同。其推导过程如下所示
在这里插入图片描述