conjugate prior共轭先验

在模型参数估计中,根据贝叶斯方法,已知参数的prior和likelihood,可以求得参数的posterior,我们通常希望先验和后验是共轭的,但为什么我们要采用共轭先验呢?我们在这里首先考虑 prior 的不同形式的区别。

考虑高斯分布模型 :x\sim N(\mu ,\tau ^{-1}). 这里我们就是要求出 \mu\tau的 后验分布。

根据贝叶斯公式:

                            p(\mu ,\varepsilon |x)\propto p(x|\mu , \varepsilon )p(\mu ,\varepsilon )

第一种做法: 先验是独立的。即p(\mu ,\tau )=p(\mu )p(\tau )\mu 的先验高斯,

                                                      p(\mu )\sim N(0,\lambda ^{-1})

.\tau的先验是gamma分布:

                                             p(\tau )\sim Gamma(\alpha /2,\beta /2)

那么上式可以表示为:

p(x|\mu , \varepsilon )p(\mu ,\varepsilon )=\frac{1}{(2\Pi)^{1/2} }\tau ^{1/2}exp(-\tau (x-\mu )^{2}/2)\cdot \frac{1}{(2\Pi)^{1/2} }\lambda ^{1/2}exp(-\lambda \mu ^{2}/2)\cdot exp(-\beta \tau /2)\tau ^{\alpha /2-1}

采用最大后验估计,先取log:

                                          \frac{\alpha -1}{2}log\tau -\frac{\tau }{2}((x-\mu )^{2}+\beta )-\frac{\lambda \mu ^{2}}{2}

求导,令导数等于0,

                                  \frac{\partial l}{\partial \mu }=-2\tau (x-\mu )+2\lambda \theta =0, \frac{\partial l}{\partial \tau }=\frac{1-\alpha }{\tau }+(x-\mu )^{2}+\beta =0

但是,求解这个方程非常复杂,由于\mu\tau耦合在一起,不易求解,特别是当参数维度很高的时候,很难求解。这是因为先验是独立的,但是后验不独立,先验和后验不一致。

第二种做法:共轭先验。\mu\tau 不独立。\tau还是gamma分布,\mu 的方差 \lambda \tau ^{-1}p(\mu |\tau )\propto N(0,(\lambda \tau)^{-1} )

后验表示为:

p(\mu ,\tau )\propto p(x|\mu , \varepsilon )p(\mu ,\varepsilon )=\frac{1}{(2\Pi)^{1/2} }\tau ^{1/2}exp(-\tau (x-\mu )^{2}/2)\cdot \frac{1}{(2\Pi)^{1/2} }\lambda\tau ^{1/2}exp(-\lambda\tau \mu ^{2}/2)\cdot exp(-\beta \tau /2)\tau ^{\alpha /2-1}

只看主体,常数项不管,式子可以进一步化为,

p(\mu ,\tau )\propto \tau ^{\alpha }exp(-\frac{\tau }{2}(x^{2}+\beta ))exp(-\frac{\tau }{2}(-2\mu x+(1+\lambda )\mu ^{2}))

仔细观察这个式子,有趣的地方出现了,这个式子仍然是gamma分布和高斯分布相乘的形式,也就是说后验和先验的形式一致,这就是共轭(conjugate)。共轭先验的好处在于当先验和后验共轭,我们可以直接的得到后验的形式,省去了复杂的计算。

计算最大后验,

\frac{\partial l}{\partial \mu }\mu =x-\mu+\lambda\mu =0,\frac{\partial l}{\partial \tau }=\frac{2\alpha }{\tau }-((x-\mu )^{2}+\lambda \mu ^{2}+\beta )=0

可以看到求 \mu 时,与 \tau 没有关系,因此容易求解,这就是共轭的好处。

第三种做法:Jeffrey prior。前面两种方法都有一个共同的问题,就是\mu\tau的先验分布里还有超参数\lambda ,\alpha\beta,超参数怎么给又是一个问题,我们往往不想引入超参数,这个时候就可以采用Jeffrey先验了。Jeffrey先验是根据模型的性质给定一个先验分布。

p(\theta )\sim \sqrt{I(\theta )},  I(\theta ) 是Fisher information。\tau 的Jeffrey prior 是 p(\tau )\sim \tau ^{-1}

这时候后验仍然是gamma分布(指数分布,gamma分布的特殊形式)和高斯分布的乘积。当我们不知道先验怎么给时,往往可以给一个jeffrey先验。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值