极大似然估计、极大后验估计和贝叶斯估计

最新推荐文章于 2021-11-18 22:29:00 发布

凉风慕有信

最新推荐文章于 2021-11-18 22:29:00 发布

阅读量1.1k

点赞数 1

分类专栏：算法基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_36118365/article/details/102644479

版权

算法基础知识专栏收录该内容

19 篇文章 0 订阅

订阅专栏

在很多的机器学习问题种，输入x是一个向量，输出p(x)为某一个时间的概率（比如，x属于某个类别的概率）。一观测的数据集D，其中x1，x2，x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ)，则对新输入的预测为p(x|D,θ)，其中θ是一个向量，表示待去顶的所有模型参数。那么如果求解或者估计出θ的值呢？

频率学派VS贝叶斯学派

对于θ的本质不同认识，可以分为两个大派别。

1、频率学派：认为θ是确定的，有一个真实值，目标是找出或者逼近这个真实值。

2、贝叶斯学派：认为θ是不确定的，不存在唯一的真实值，而是服从某一个概率分布。

基于不同学派对参数的不同认识，产生了不同的参数估计方法。下面将讨论三种参数估计方法：

1、极大似然估计：MLE（Maximum Likelihood Estimation）

2、极大后验估计：MAP（Maximum A Posterior）

3、贝叶斯估计：BE（Bayesian Estimation）

其中，涉及到先验、似然、后验、贝叶斯公式的知识。

先验：p(θ)，指在见到数据集D之前，对参数θ的认识

似然：p(D|θ），在给定参数θ下，数据集D被观测到的概率

后验：p(θ|D)，在见到数据集D之后，对参数θ的重新认识

贝叶斯公式：

极大似然估计：(频率学派)

MLE的逻辑是：真实的参数θ是唯一的，既然数据集D被观测到了，那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。即

最后一行的目标函数，是常用的形式。对似然求log是防止数值下溢，因为似然是各个样本点处概率乘积的形式，而概率都在0到1之间，似然通常会超出计算机的精度范围。另一方面，log是一个凸函数，保证了极大化似然和极大化对数似然的等价。

极大后验估计：（贝叶斯学派）

MAP的逻辑是：最优的参数应该是让后验概率最大。即

MAP和MLE的却别是，两者优化的目标函数只是相差了一个先验。更有趣的是，如果这个先验服从高斯分布的话，MAP将等同于MLE+L2正则。

推导：假设参数θ服从高斯分布，即：

则有：

其中， $\lambda$ 是一个跟θ无关的常数。

贝叶斯估计：BE

损失函数，来衡量参数的估计值和真实值之间的差别。比如，常用的平方误差损失：

经验风险，表示在后验概率p(θ|D)下，用 $\hat{\theta}$ 作为θ的估计，所要承担的风险。

期望风险，是对数据集D再取期望，去除数据采集过程的方差所带来的波动。

贝叶斯估计的思路是，在所有θ的估计种，能使期望风险最低的估计，是最优估计。即

因此，不同于MLE和MAP选择某一个特定的估计值，贝叶斯估计对各个估计值进行了概率加权平均。

总结：

1）MLE的缺点非常明显，就是在数据量很小的时候，会得出很不可靠的估计。

比如，抛硬币2次全部是正面，MLE会得到正面的概率为1。

还有就是，MLE无法从理论层面说明机器学习目标函数中正则项的来由，而MAP给出了理论解释。

事实上，当初统计学家在回归问题中引入L2正则，只是出于防止矩阵病态造成不可求逆矩阵，后来才发现结果居然更好了。

2）MAP的缺点是可能带来计算的困难。

因为MAP优化的是先验和似然的乘积（即后验），两个概率分布的乘积形式通常会变的比较复杂。

正因为如此，贝叶斯学派的学者们提出了很多形式的概率分布，称之为共轭分布。

共轭分布的作用是，让先验乘以似然之后，仍然跟先验属于同一种分布，这样就带来了计算上的方便。

但这一点也正是频率学派所一直诟病的地方，你们贝叶斯学派选择先验没有任何科学依据，只是为了方便计算啊。

3）BE的缺点更明显了，就是计算量过大，因为它要求各个估计的概率加权平均。

在机器学习领域，贝叶斯方法基本等同于“计算量超级大”。不过，有很多近似求解的方法（比如，采样），极大地减小了计算量，拓宽了贝叶斯方法的实际应用范围。

三者之间的联系：

（1）MAP + 高斯先验 = MLE + L2正则

（2）当样本量越来越大，先验所起的作用也越来越小，最后MAP会趋近于MLE。

（3）当先验为均匀分布时，p(θ)为常量，此时MAP与MLE等价。可以理解为这种情况下先验并不能提供任何有价值的信息。

（4）MLE最大化的是p(D,θ)，MAP最大化的是p(θ|D)，而BE最大化的是R( $\hat{\theta}$ |D).

最后：

1) 机器学习中的目标函数，代表的是一个信息标准（比如，似然、后验、交叉熵、经验损失等）。

使用什么样的信息标准作为优化目标，代表了我们不同的追求。

比如，我们希望得到一个光滑的模型，就会对导数加惩罚项；我们希望得到简单的模型，就会对模型复杂度加惩罚项。

2) 交叉熵函数来自于训练数据集上的极大似然估计。

3) 逻辑回归解决的是分类问题，其目标函数就是交叉熵。

凉风慕有信

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
极大似然估计、极大后验估计和贝叶斯估计

在很多的机器学习问题种，输入x是一个向量，输出p(x)为某一个时间的概率（比如，x属于某个类别的概率）。一观测的数据集D，其中x1，x2，x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ)，则对新输入的预测为p(x|D,θ)，其中θ是一个向量，表示待去顶的所有模型参数。那么如果求解或者估计出θ的值呢？频率学派VS贝叶斯学派对于θ的本质不同认识，可以分为两...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。