目录
1 贝叶斯分布
共轭是贝叶斯理论中的一个概念,一般共轭是一个先验分布与似然函数共轭;
那么就从贝叶斯理论中的先验概率,后验概率以及似然函数说起:
在概率论中有一个条件概率公式,有两个变量第一个是A,第二个是B,A先发生,B后发生,B的发生与否是与A有关系的,那么我们要想根据B的发生情况来计算 A发生的概率就是所谓的后验概率P(A|B)(后验概率是一个条件概率,即在B发生的条件下A发生的概率),计算公式是:P(A|B)=P(AB)/P(B),
而又有乘法公式:P(AB)=P(A)P(B|A),
这里的P(A)称为先验概率,它是先发生的,也可以是人为假定的,但是通常是不能通过训练样本直接统计得出的,所以我们的需要利用后验概率来求取先验概率,也就是通常意义上的由果推因。
后验概率是在新的样本加入之后得到的,有更多的事实作为参考,进而对先验进行修正。
似然函数则是指P(B|A),也是一个条件概率,是指在先验发生的条件下后验发生的可能性,是一种正向推理的过程,通常是模型参数的函数。
即P(A|B)=P(A)P(B|A)/P(B),中P(A)称为先验概率,P(B|A)似然函数,P(A|B)后验概率。
贝叶斯公式例如以下:
当中。表示模型中的未知參数。
表示样本。
- 这里有三个重要的概念:先验分布、似然函数,以及后验分布。
是先验分布,表示在观察样本之前,依照经验觉得符合某种概率分布。比方说在抛硬币之前,我们觉得正反两面出现的概率各为1/2。
是似然函数,表示在给定模型參数
的条件下,样本数据服从这一概率模型的相似程度。
是后验分布。表示在观察一系列样本数据
后。模型參数服从的概率分布。
即。对先验分布进行了修正。更接近真实情况。
另外。由于是样本。所以
是一个确定的值。
2 共轭分布的定义
在贝叶斯公式中,假设先验分布和似然函数使得后验分布具有和先验分布同样的形式,那么就称先验分布和似然函数是共轭的。
3. 举例说明
狄利克雷分布是多项分布的共轭先验;贝塔分布是二项分布的共轭先验。
3.1 Beta分布与二项分布共轭
二项分布与Beta分布共轭。Beta分布的密度函数为:
用Beta分布作为二项分布的先验分布,可得到后验密度:
非常神奇地回到了Beta分布。
假设先验分布为 ,则上述实验后,后验分布为
。已知Beta分布的均值为
, 据此估计正面概率
。我们可以很方便地在此基础上迭代更新后验概率。假如第2组实验抛10次出5次正面,则再次更新为
。
在LDA主题模型(Latent Dirichlet Allocation)中,正是利用了多项分布与狄利克雷分布(Dirichlet分布)共轭的特性,从而简化了迭代计算。
3.2 Dirichlet分布与多项分布共轭
Beta分布扩展到多维是 Dirichlet分布(狄利克雷分布)。二项分布扩展到多维就是多项分布。
4 常见共轭先验分布
在贝叶斯概率理论中,如果后验概率P(θ|X)和先验概率P(θ)满足同样的分布律(形式相同,参数不同)。那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
共轭分布总是针对分布中的某个参数θ而言。之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,但是参数不同。