MLE极大似然估计

最新推荐文章于 2022-05-15 15:46:27 发布

lgb_love

最新推荐文章于 2022-05-15 15:46:27 发布

阅读量6.5k

点赞数 3

分类专栏：机器学习

机器学习专栏收录该内容

22 篇文章 3 订阅

订阅专栏

https://blog.csdn.net/tjy1220646144/article/details/44834865

极大似然估计（MLE）：

极大似然估计是一种参数估计的方法，即已知样本估计出模型参数。

极大似然估计是频率学派的一种方法（与贝叶斯学派的极大后验估计对应），频率学派认为模型的参数是确定的，只是不知道而已，所以可以通过样本推断出模型参数。

既然是极大“似然”估计，就要先明白什么是“似然”，在贝叶斯公式中有：

其中，是模型参数的后验概率密度函数，是模型参数的先验概率密度函数，这些都是频率学派所不关心的，所以MLE中只关心，也就是似然函数。

可以看出似然函数就是假设已知参数的情况下得到观察样本的概率，而MLE的初衷就是选择值，使得当前观察到的样本是该模型产生的数据这一概率最大！

似然函数的定义为：

就是通过参数为的模型产生样本的概率。

MLE极大似然估计就是求使得最大的！

log似然函数的定义为：

使用log似然有几点好处：它与似然函数在同样的位置取得最大值；它可以将中的乘法变成加法；中的系数变成中的常数项，因为不影响取极大值的位置，都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使最大的了，下面以求高斯分布的MLE为例来说明。

高斯函数：

分别对和求偏导得：

所以可以求得和的值为：

到这里就使用MLE的方法求出了高斯模型的参数，可以看出高斯模型的参数和可以通过统计量求得。

极大后验估计（MAP）：

顺便提一下极大后验估计，其实明白MLE之后，MAP也比较好理解了。

极大后验估计又叫贝叶斯估计，贝叶斯与频率的最主要的区别就是先验的问题，所以MAP处理的目标函数就是中的。一般情况下无法直接得到，所以我们可以处理的等价形式。这里就又要提到共轭先验了，也体现了共轭先验的作用。如果是的共轭先验，那么后验的形式与先验的形式是一样的，这种形式的一致性不仅计算起来比较方便也更适合在线学习（online learning）。

通过得到后验的表达式后就可以使用与MLE同样的方法求出参数了。

当先验是均匀分布时MAP退化为MLE！

MLE、MAP与经验风险最小、结构风险最小的关系

既然提到了MLE和MAP的关系，就再引申两个概念：经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。

经验风险最小：

经验风险最小（ERM）标准认为经验风险最小的模型是最优模型，ERM就是求最优化问题：

其中F是假设空间，f是模型，L是损失函数。当样本容量很大时，ERM的效果较好，样本容量较小时，ERM容易产生过拟合现象。MLE就是ERM的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，ERM等价于MLE。

结构风险最小：

结构风险最小（SRM）是为了防止过拟合现象而提出的，SRM等价于正则化。SRM就是求最优化问题：

是模型的复杂度，是定义在F上的泛函。模型f越复杂，就越大，反之，f越简单，就越小。是系数，用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型先验概率表示时，SRM等价于MAP。

岭回归：

在回归问题中有如下关系：

一般的线性回归——MLE求解——最小二乘方法

岭回归——MAP求解——惩罚（正则）最小二乘方法

在岭回归中就是假设线性回归的参数w满足高斯分布。

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。