转:https://blog.csdn.net/xbmatrix/article/details/63253177
概述:
贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响。之所以采用共轭分布的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
共轭分布≠共轭先验。如果后验概率和先验概率是同一族的,则认为它们是共轭分布,这个先验概率就是对应于似然函数的共轭先验。——维基百科。所以,共轭先验分布离不开具体的分布和参数,比如似然函数是二项分布,参数为u,则必须指明二项分布中参数u的共轭先验分布是Beta分布,由此得到的后验概率也是Beta分布(同一族)。
0. 贝叶斯公式
X为抽样样本,P(X)为我们抽到该样本的概率,有时被称为"证据",仅仅是归一化因子,如果不关心后验概率P(θ|X)的具体值,只考察θ取何值时后验概率P(θ|X)最大,则可将分子P(X)省略
1. 先验信息
在抽取样本X之前,人们对所要估计的未知参数θ所了解的信息,通常称为先验信息.
某学生通过物理试验来确定当地的重力加速度,测得的数据为(m/s²):
9.80, 9.79, 9.78, 6.81, 6.80
试求当地的重力加速度.
解:用样本均值估计其重力加速度应该是合理的,即
θ平均 = 8.596
由经验可知,此结果是不符合事实的。在估计之前我们知道,重力加速度应该在9.80附近,即
θ~N(9.80,0.1^2)
这个信息就是重力加速度的先验信息
在统计学中,先验信息可以更好的帮助人们解决
2. 先验分布
对未知参数θ的先验信息用一个分布形式P(θ)来表示,此分布p(θ)称为未知参数θ的先验分布.(即在实验前通过已知信息知道的分布)
上例中重力加速度的先验分布为 θ~N(9.80,0.1^2)
3. 后验分布
在抽取样本X之前,人们对未知参数θ有个了解,即先验分布P(θ)。抽取样本X,得到样本信息,即似然函数P(X|θ),由于样本中包含未知参数θ的信息,所以样本信息可以修正抽样之前的先验分布P(θ)。P(θ|X)为参数θ的后验分布,即抽样加入新的信息后,对先验分布P(θ)进行修正,后验分布综合运用了先验分布P(θ)和样本信息P(X|θ)。
4. 共轭先验分布
在贝叶斯概率理论中,如果后验概率P(θ|X)和先验概率P(θ)满足同样的分布律(形式相同,参数不同)。那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
共轭分布总是针对分布中的某个参数θ而言。之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,但是参数不同。