极大似然估计、极大后验估计和贝叶斯估计

       在很多的机器学习问题种,输入x是一个向量,输出p(x)为某一个时间的概率(比如,x属于某个类别的概率)。一观测的数据集D,其中x1,x2,x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ),则对新输入的预测为p(x|D,θ),其中θ是一个向量,表示待去顶的所有模型参数。那么如果求解或者估计出θ的值呢?

 

频率学派VS贝叶斯学派

对于θ的本质不同认识,可以分为两个大派别。

1、频率学派:认为θ是确定的,有一个真实值,目标是找出或者逼近这个真实值。

2、贝叶斯学派:认为θ是不确定的,不存在唯一的真实值,而是服从某一个概率分布。

 

基于不同学派对参数的不同认识,产生了不同的参数估计方法。下面将讨论三种参数估计方法:

1、极大似然估计:MLE(Maximum Likelihood Estimation)

2、极大后验估计:MAP(Maximum A Posterior)

3、贝叶斯估计:BE(Bayesian Estimation)

其中,涉及到先验、似然、后验、贝叶斯公式的知识。

先验:p(θ),指在见到数据集D之前,对参数θ的认识

似然:p(D|θ),在给定参数θ下,数据集D被观测到的概率

后验:p(θ|D),在见到数据集D之后,对参数θ的重新认识

贝叶斯公式:

 

极大似然估计:(频率学派)

MLE的逻辑是:真实的参数θ是唯一的,既然数据集D被观测到了,那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。即

最后一行的目标函数,是常用的形式。对似然求log是防止数值下溢,因为似然是各个样本点处概率乘积的形式,而概率都在0到1之间,似然通常会超出计算机的精度范围。另一方面,log是一个凸函数,保证了极大化似然和极大化对数似然的等价。

 

极大后验估计:(贝叶斯学派)

MAP的逻辑是:最优的参数应该是让后验概率最大。即

MAP和MLE的却别是,两者优化的目标函数只是相差了一个先验。更有趣的是,如果这个先验服从高斯分布的话,MAP将等同于MLE+L2正则。

推导:假设参数θ服从高斯分布,即:

则有:

其中,\lambda是一个跟θ无关的常数。

 

贝叶斯估计:BE

损失函数,来衡量参数的估计值和真实值之间的差别。比如,常用的平方误差损失:

经验风险,表示在后验概率p(θ|D)下,用\hat{\theta}作为θ的估计,所要承担的风险。

期望风险,是对数据集D再取期望,去除数据采集过程的方差所带来的波动。

贝叶斯估计的思路是,在所有θ的估计种,能使期望风险最低的估计,是最优估计。即

因此,不同于MLE和MAP选择某一个特定的估计值,贝叶斯估计对各个估计值进行了概率加权平均。

 

总结:

1)MLE的缺点非常明显,就是在数据量很小的时候,会得出很不可靠的估计。

      比如,抛硬币2次全部是正面,MLE会得到正面的概率为1。

      还有就是,MLE无法从理论层面说明机器学习目标函数中正则项的来由,而MAP给出了理论解释。

      事实上,当初统计学家在回归问题中引入L2正则,只是出于防止矩阵病态造成不可求逆矩阵,后来才发现结果居然更好了。

 

2)MAP的缺点是可能带来计算的困难。

      因为MAP优化的是先验和似然的乘积(即后验),两个概率分布的乘积形式通常会变的比较复杂。

      正因为如此,贝叶斯学派的学者们提出了很多形式的概率分布,称之为共轭分布。

      共轭分布的作用是,让先验乘以似然之后,仍然跟先验属于同一种分布,这样就带来了计算上的方便。

      但这一点也正是频率学派所一直诟病的地方,你们贝叶斯学派选择先验没有任何科学依据,只是为了方便计算啊。

3)BE的缺点更明显了,就是计算量过大,因为它要求各个估计的概率加权平均。

      在机器学习领域,贝叶斯方法基本等同于“计算量超级大”。不过,有很多近似求解的方法(比如,采样),极大地减小了计算量,拓宽了贝叶斯方法的实际应用范围。

 

 

三者之间的联系:

(1)MAP + 高斯先验  = MLE + L2正则

(2)当样本量越来越大,先验所起的作用也越来越小,最后MAP会趋近于MLE。

(3)当先验为均匀分布时,p(θ)为常量,此时MAP与MLE等价。可以理解为这种情况下先验并不能提供任何有价值的信息。

(4)MLE最大化的是p(D,θ),MAP最大化的是p(θ|D),而BE最大化的是R(\hat{\theta}|D).

 

 

最后:

1) 机器学习中的目标函数,代表的是一个信息标准(比如,似然、后验、交叉熵、经验损失等)

使用什么样的信息标准作为优化目标,代表了我们不同的追求。

比如,我们希望得到一个光滑的模型,就会对导数加惩罚项;我们希望得到简单的模型,就会对模型复杂度加惩罚项。

2) 交叉熵函数来自于训练数据集上的极大似然估计。

3) 逻辑回归解决的是分类问题,其目标函数就是交叉熵。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值