关于最大后验概率估计就是结构风险最小化的详解(统计学习方法)

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解


(1)最大似然估计

    这篇文章中提到,关于最大似然估计,使用频率去估计概率,在抛硬币问题中会得到正面向上的概率是0.7的结论,其原因是由于样本数量太小,使用经验风险最小化会出现过拟合现象

    经验风险:即模型关于训练样本集的平均损失。


(2)最大后验概率估计:

   为了解决过拟合问题,在抛硬币例子中加入了先验概率P(θ),最大后验概率估计得到正面向上的概率是0.558的结论,对于小样本来讲,效果更好。


下面对最大后验概率进行分析:

最大后验估计方法于是估计 \theta 为这个随机变量的后验分布的众数

\hat{\theta}_{\mathrm{MAP}}(x)= \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)}  {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'}= \arg\max_{\theta} f(x | \theta) \, g(\theta)\!

后验分布的分母与 \theta 无关,所以在优化过程中不起作用。注意当前验 g 是常数函数最大后验估计与最大似然估计重合

************************************************************

我们对上式使用对数损失函数(先取负对数,再将对数展开),则上式等价于:

          

对比结构风险最小化公式:

          

    由于f( | )是模型,可以是条件概率分布模型,那么便可以看做是对数似然损失函数,而正则化项为,调节因子为1。正则化项对应于模型的先验概率,复杂的模型,即我们认为越复杂的模型其先验概率越小,那么复杂的模型其就越大,很好的扮演了正则化项的角色。

    结构风险最小化就是为了在似然尽可能大的情况下避免模型太过复杂。所以得证。


参考:特定条件下结构风险最小化等价于最大后验概率估计得证明

发布了80 篇原创文章 · 获赞 20 · 访问量 4万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 像素格子 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览