在模型参数估计中,根据贝叶斯方法,已知参数的prior和likelihood,可以求得参数的posterior,我们通常希望先验和后验是共轭的,但为什么我们要采用共轭先验呢?我们在这里首先考虑 prior 的不同形式的区别。
考虑高斯分布模型 :. 这里我们就是要求出 ,的 后验分布。
根据贝叶斯公式:
第一种做法: 先验是独立的。即. 的先验高斯,
.的先验是gamma分布:
那么上式可以表示为:
采用最大后验估计,先取log:
求导,令导数等于0,
但是,求解这个方程非常复杂,由于,耦合在一起,不易求解,特别是当参数维度很高的时候,很难求解。这是因为先验是独立的,但是后验不独立,先验和后验不一致。
第二种做法:共轭先验。, 不独立。还是gamma分布, 的方差 ,
后验表示为:
只看主体,常数项不管,式子可以进一步化为,
仔细观察这个式子,有趣的地方出现了,这个式子仍然是gamma分布和高斯分布相乘的形式,也就是说后验和先验的形式一致,这就是共轭(conjugate)。共轭先验的好处在于当先验和后验共轭,我们可以直接的得到后验的形式,省去了复杂的计算。
计算最大后验,
可以看到求 时,与 没有关系,因此容易求解,这就是共轭的好处。
第三种做法:Jeffrey prior。前面两种方法都有一个共同的问题,就是,的先验分布里还有超参数,,,超参数怎么给又是一个问题,我们往往不想引入超参数,这个时候就可以采用Jeffrey先验了。Jeffrey先验是根据模型的性质给定一个先验分布。
, 是Fisher information。 的Jeffrey prior 是 。
这时候后验仍然是gamma分布(指数分布,gamma分布的特殊形式)和高斯分布的乘积。当我们不知道先验怎么给时,往往可以给一个jeffrey先验。