conjugate prior共轭先验

最新推荐文章于 2024-01-04 10:50:59 发布

janehand

最新推荐文章于 2024-01-04 10:50:59 发布

阅读量1.4k

点赞数

分类专栏： ML理论

本文链接：https://blog.csdn.net/janehong1314/article/details/85060182

版权

ML理论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在模型参数估计中，根据贝叶斯方法，已知参数的prior和likelihood，可以求得参数的posterior，我们通常希望先验和后验是共轭的，但为什么我们要采用共轭先验呢？我们在这里首先考虑 prior 的不同形式的区别。

考虑高斯分布模型： $x\sim N(\mu ,\tau ^{-1})$ . 这里我们就是要求出 $\mu$ ， $\tau$ 的后验分布。

根据贝叶斯公式：

$p(\mu ,\varepsilon |x)\propto p(x|\mu , \varepsilon )p(\mu ,\varepsilon )$

第一种做法: 先验是独立的。即 $p(\mu ,\tau )=p(\mu )p(\tau )$ . $\mu$ 的先验高斯，

$p(\mu )\sim N(0,\lambda ^{-1})$

. $\tau$ 的先验是gamma分布：

$p(\tau )\sim Gamma(\alpha /2,\beta /2)$

那么上式可以表示为：

$p(x|\mu , \varepsilon )p(\mu ,\varepsilon )=\frac{1}{(2\Pi)^{1/2} }\tau ^{1/2}exp(-\tau (x-\mu )^{2}/2)\cdot \frac{1}{(2\Pi)^{1/2} }\lambda ^{1/2}exp(-\lambda \mu ^{2}/2)\cdot exp(-\beta \tau /2)\tau ^{\alpha /2-1}$

采用最大后验估计，先取log:

$\frac{\alpha -1}{2}log\tau -\frac{\tau }{2}((x-\mu )^{2}+\beta )-\frac{\lambda \mu ^{2}}{2}$

求导，令导数等于0，

$\frac{\partial l}{\partial \mu }=-2\tau (x-\mu )+2\lambda \theta =0, \frac{\partial l}{\partial \tau }=\frac{1-\alpha }{\tau }+(x-\mu )^{2}+\beta =0$

但是，求解这个方程非常复杂，由于 $\mu$ ， $\tau$ 耦合在一起，不易求解，特别是当参数维度很高的时候，很难求解。这是因为先验是独立的，但是后验不独立，先验和后验不一致。

第二种做法：共轭先验。 $\mu$ ， $\tau$ 不独立。 $\tau$ 还是gamma分布， $\mu$ 的方差 $\lambda \tau ^{-1}$ ， $p(\mu |\tau )\propto N(0,(\lambda \tau)^{-1} )$

后验表示为：

$p(\mu ,\tau )\propto p(x|\mu , \varepsilon )p(\mu ,\varepsilon )=\frac{1}{(2\Pi)^{1/2} }\tau ^{1/2}exp(-\tau (x-\mu )^{2}/2)\cdot \frac{1}{(2\Pi)^{1/2} }\lambda\tau ^{1/2}exp(-\lambda\tau \mu ^{2}/2)\cdot exp(-\beta \tau /2)\tau ^{\alpha /2-1}$

只看主体，常数项不管，式子可以进一步化为，

$p(\mu ,\tau )\propto \tau ^{\alpha }exp(-\frac{\tau }{2}(x^{2}+\beta ))exp(-\frac{\tau }{2}(-2\mu x+(1+\lambda )\mu ^{2}))$

仔细观察这个式子，有趣的地方出现了，这个式子仍然是gamma分布和高斯分布相乘的形式，也就是说后验和先验的形式一致，这就是共轭(conjugate)。共轭先验的好处在于当先验和后验共轭，我们可以直接的得到后验的形式，省去了复杂的计算。

计算最大后验，

$\frac{\partial l}{\partial \mu }\mu =x-\mu+\lambda\mu =0,\frac{\partial l}{\partial \tau }=\frac{2\alpha }{\tau }-((x-\mu )^{2}+\lambda \mu ^{2}+\beta )=0$

可以看到求 $\mu$ 时，与 $\tau$ 没有关系，因此容易求解，这就是共轭的好处。

第三种做法：Jeffrey prior。前面两种方法都有一个共同的问题,就是 $\mu$ ， $\tau$ 的先验分布里还有超参数 $\lambda ，$ ， $\alpha$ ， $\beta$ ，超参数怎么给又是一个问题，我们往往不想引入超参数，这个时候就可以采用Jeffrey先验了。Jeffrey先验是根据模型的性质给定一个先验分布。