本系列文章为原创,转载请注明出处。
作者:Dongdong Bai
邮箱: baidongdong@nudt.edu
若您觉得本博文对您有帮助,请您为我点赞并关注我,以鼓励我写出更优秀的博文。谢谢!
一、基本概念
1、先验概率和后验概率
其中, θ θ 表示模型中的未知参数, X X 表示样本。这里有三个重要的概念:先验分布、似然函数,以及后验分布。
是先验分布,表示在观察样本之前,按照经验认为 θ θ 符合某种概率分布。比如说在抛硬币之前,我们认为正反两面出现的概率各为1/2。
P(X|θ) P ( X | θ ) 是似然函数,表示在给定模型参数 θ θ 的条件下,样本数据 X X 服从这一概率模型的相似程度。
是后验分布,表示在观察一系列样本数据 X X 后,模型参数 服从的概率分布。即,对先验分布进行了修正,更接近真实情况。
- 另外,因为 X X 是样本,所以 是一个确定的值。
显然它们之间的关系可以通过贝叶斯公式进行连接:
后验分布=(似然函数∗先验分布)P(X) 后 验 分 布 = ( 似 然 函 数 ∗ 先 验 分 布 ) P ( X )2、共轭(先验)分布
如果先验分布和似然函数可以使得先验分布和后验分布是相同的类型(比如都是指数分布,或都是高斯分布),那么就称先验分布与似然函数是共轭(先验)分布。
之所以采用共轭先验分布的原因是可以使得先验分布和后验分布具有相同形式,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
二、机器学习中的应用
1、贝叶斯法则
机器学习的任务:根据给定的训练数据集 D D ,在假说集 中的选出一个最佳假说(hypothesis)作为最终的模型。
最佳假说:是在给定数据集 D D 和假说集 中每个假说 h h 的先验概率的情况下,最可能(概率 最大)的一个假说。贝叶斯理论提供了一种计算假说 P(h|D) P ( h | D ) 的方法:已知各个假说 h h 的先验概率 ,以及在假说下 h h 观察到数据集 的概率 P(D|h) P ( D | h ) (似然函数),和数据集本身发生的概率 P(D) P ( D ) ,则各个假说 h h 的后验概率为: