机器学习中的数学——点估计(四):最大后验估计(Maximum Posteriori Probability,MAP)

分类目录:《机器学习中的数学》总目录
相关文章:
· 点估计(一):基础知识
· 点估计(二):矩估计
· 点估计(三):极大似然估计/最大似然估计(Maximum Likelihood Estimate,MLE)
· 点估计(四):最大后验估计(Maximum Posteriori Probability,MAP)


前面的文章我们已经讨论了频率派统计方法和基于估计单一值 θ \theta θ的方法,然后基于该估计作所有的预测。另一种方法是在做预测时会考虑所有可能的 θ \theta θ。后者属于贝叶斯统计的范畴。频率派的视角是真实参数 θ \theta θ是未知的定值,而点估计 θ ^ \hat{\theta} θ^是考虑数据集上函数(可以看作随机的)的随机变量。

贝叶斯统计的视角完全不同。贝叶斯统计用概率反映知识状态的确定性程度。数据集能够被直接观测到,因此不是随机的。另一方面,真实参数 θ \theta θ是未知或不确定的,因此可以表示成随机变量。

在观察到数据前,我们将 θ \theta θ的已知知识表示成先验概率分布 p ( θ ) p(\theta) p(θ)。一般而言,机器学习实践者会选择一个相当宽泛的(即高熵的)先验分布,以反映在观测到任何数据前参数 θ \theta θ的高度不确定性。例如,我们可能会假设先验 θ \theta θ在有限区间中均匀分布。许多先验偏好于“更简单”的解。

现在假设我们有一组数据样本 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,通过贝叶斯规则结合数据似然 p ( x 1 , x 2 , … , x n ∣ θ p(x_1, x_2, \dots, x_n|\theta p(x1,x2,,xnθ和先验,可以恢复数据对我们关于 θ \theta θ信念的影响:
p ( x 1 , x 2 , … , x n ∣ θ ) = p ( x 1 , x 2 , … , x n ∣ θ ) p ( θ ) p ( x 1 , x 2 , … , x n ) p(x_1, x_2, \dots, x_n|\theta)=\frac{p(x_1, x_2, \dots, x_n|\theta)p(\theta)}{p(x_1, x_2, \dots, x_n)} p(x1,x2,,xnθ)=p(x1,x2,,xn)p(x1,x2,,xnθ)p(θ)

在贝叶斯估计常用的情景下,先验开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。相对于最大似然估计,贝叶斯估计有两个重要区别:

  • 不像最大似然方法预测时使用 θ \theta θ的点估计,贝叶斯方法使用 θ \theta θ的全分布。例如,在观测到 n n n个样本后,下一个数据样本 x n + 1 x_{n+1} xn+1的预测分布如下: p ( x n + 1 ∣ x 1 , x 2 , … , x n ) = ∫ p ( x n + 1 ∣ θ ) p ( θ ∣ x 1 , x 2 , … , x n ) d θ p(x_{n+1}|x_1, x_2, \dots, x_n)=\int p(x_{n+1}|\theta)p(\theta|x_1, x_2, \dots, x_n)\text{d}\theta p(xn+1x1,x2,,xn)=p(xn+1θ)p(θx1,x2,,xn)dθ每个具有正概率密度的 θ \theta θ的值有助于下一个样本的预测,其中贡献由后验密度本身加权。在观测到数据集 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn之后,如果我们仍然非常不确定 θ \theta θ的值,那么这个不确定性会直接包含在我们所做的任何预测中。在前面的文章中,我们已经探讨频率派方法解决给定点估计 θ \theta θ的不确定性的方法是评估方差,估计的方差评估了观测数据重新从观测数据中采样后,估计可能如何变化。对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。当然,积分仅仅是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。
  • 先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。对贝叶斯方法的批判认为,先验是人为主观判断影响预测的来源。

当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。

原则上,我们应该使用参数 θ \theta θ的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的。希望使用点估计的一个常见原因是,对于大多数有意义的模型而言,大多数涉及贝叶斯后验的计算是非常棘手的,点估计提供了一个可行的近似解。我们仍然可以让先验影响点估计的选择来利用贝叶斯方法的优点,而不是简单地回到极大似然估计。一种能够做到这一点的合理方式是选择最大后验点估计。最大后验估计选择后验概率最大的点:
θ M A P = arg ⁡ max ⁡ θ log ⁡ p ( θ ∣ x ) = arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) p ( θ ) \theta_{MAP}=\arg\max_{\theta}\log p(\theta|x)=\arg\max_{\theta}\log \frac{p(x|\theta)}{p(\theta)} θMAP=argθmaxlogp(θx)=argθmaxlogp(θ)p(xθ)

右边的 log ⁡ p ( x ∣ θ ) \log p(x|\theta) logp(xθ)对应着标准的对数似然项, log ⁡ p ( θ ) \log p(\theta) logp(θ)对应着先验分布。MAP贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。相对于极大似然估计,该附加信息有助于减少最大后验点估计的方差。然而,这个优点的代价是增加了偏差。许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的MAP近似。这个适应于正则化时加到目标函数的附加项对应着 log ⁡ p ( θ ) \log p(\theta) logp(θ)。并非所有的正则化惩罚都对应着MAP贝叶斯推断。例如,有些正则化可能不是一个概率分布的对数。还有些正则化依赖于数据,当然也不会是一个先验概率分布。MAP贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化。例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

von Neumann

您的赞赏是我创作最大的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值