贝叶斯法则,先验概率,后验概率,极大后验估计,极大似然估计

本系列文章为原创,转载请注明出处。
作者:Dongdong Bai
邮箱: baidongdong@nudt.edu

若您觉得本博文对您有帮助,请您为我点赞并关注我,以鼓励我写出更优秀的博文。谢谢!


一、基本概念

1、先验概率和后验概率

P(θ|X)=P(X|θ)P(θ)P(X) P ( θ | X ) = P ( X | θ ) P ( θ ) P ( X )

其中, θ θ 表示模型中的未知参数, X X 表示样本。这里有三个重要的概念:先验分布似然函数,以及后验分布

  • P ( θ ) 先验分布,表示在观察样本之前,按照经验认为 θ θ 符合某种概率分布。比如说在抛硬币之前,我们认为正反两面出现的概率各为1/2。

    • P(X|θ) P ( X | θ ) 似然函数,表示在给定模型参数 θ θ 的条件下,样本数据 X X 服从这一概率模型的相似程度。

    • P ( θ | X ) 后验分布,表示在观察一系列样本数据 X X 后,模型参数 θ 服从的概率分布。即,对先验分布进行了修正,更接近真实情况。

    • 另外,因为 X X 是样本,所以 P ( X ) 是一个确定的值。
    • 显然它们之间的关系可以通过贝叶斯公式进行连接:

      =()P(X) 后 验 分 布 = ( 似 然 函 数 ∗ 先 验 分 布 ) P ( X )

      2、共轭(先验)分布

      如果先验分布似然函数可以使得先验分布后验分布相同的类型(比如都是指数分布,或都是高斯分布),那么就称先验分布似然函数共轭(先验)分布

      之所以采用共轭先验分布的原因是可以使得先验分布和后验分布具有相同形式,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

      二、机器学习中的应用

      1、贝叶斯法则

        机器学习的任务:根据给定的训练数据集 D D ,在假说集 H 中的选出一个最佳假说(hypothesis)作为最终的模型。

        最佳假说:是在给定数据集 D D 和假说集 H 中每个假说 h h 的先验概率的情况下,最可能(概率 P ( h | D ) 最大)的一个假说。贝叶斯理论提供了一种计算假说 P(h|D) P ( h | D ) 的方法:已知各个假说 h h 的先验概率 P ( h ) ,以及在假说下 h h 观察到数据集 D 的概率 P(D|h) P ( D | h ) (似然函数),和数据集本身发生的概率 P(D) P ( D ) ,则各个假说 h h 的后验概率为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值