关于最大后验概率估计就是结构风险最小化的详解(统计学习方法)

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解


(1)最大似然估计

    这篇文章中提到,关于最大似然估计,使用频率去估计概率,在抛硬币问题中会得到正面向上的概率是0.7的结论,其原因是由于样本数量太小,使用经验风险最小化会出现过拟合现象

    经验风险:即模型关于训练样本集的平均损失。


(2)最大后验概率估计:

   为了解决过拟合问题,在抛硬币例子中加入了先验概率P(θ),最大后验概率估计得到正面向上的概率是0.558的结论,对于小样本来讲,效果更好。


下面对最大后验概率进行分析:

最大后验估计方法于是估计 \theta 为这个随机变量的后验分布的众数

\hat{\theta}_{\mathrm{MAP}}(x)= \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)}  {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'}= \arg\max_{\theta} f(x | \theta) \, g(\theta)\!

后验分布的分母与 \theta 无关,所以在优化过程中不起作用。注意当前验 g 是常数函数最大后验估计与最大似然估计重合

************************************************************

我们对上式使用对数损失函数(先取负对数,再将对数展开),则上式等价于:

          

对比结构风险最小化公式:

          

    由于f( | )是模型,可以是条件概率分布模型,那么便可以看做是对数似然损失函数,而正则化项为,调节因子为1。正则化项对应于模型的先验概率,复杂的模型,即我们认为越复杂的模型其先验概率越小,那么复杂的模型其就越大,很好的扮演了正则化项的角色。

    结构风险最小化就是为了在似然尽可能大的情况下避免模型太过复杂。所以得证。


参考:特定条件下结构风险最小化等价于最大后验概率估计得证明

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值