变分推断学习笔记(2)——一维高斯模型的例子

ddtohy

于 2014-11-13 20:58:44 发布

阅读量2.1k

点赞数

分类专栏： algorithm

algorithm 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

ref：http://www.crescentmoon.info/?p=745

举一个一元高斯模型的例子。假设我们有数据 X={x1,…,xM} ，要推断平均值 μ 和精度 τ(1/σ) 的后验概率分布。
写出似然

p (X | μ, τ) = (τ 2 π) N / 2 exp {- τ 2 \sum n = 1 N (x n - μ) 2} (1)

其中

μ,τ 各自服从先验分布

p (μ | τ) = N (μ | μ, (λ 0 τ) - 1) (2)

p (τ) = G a m (τ | a 0, b 0) (3)

其中Gam为Gamma分布（见备注1）。

通用的估计方法

好，我们现在假设 q 之间的分布都独立。

q (μ, τ) = q u (μ) q r (τ) (4)

对于 qu(μ) 我们有

ln q * u (μ) = E r [ln p (X | μ, τ) + ln p (μ | τ)] + c o n s t = - E [ τ ] 2 {λ 0 (μ - u 0) 2 + \sum n = 1 N (x n - μ) 2} + c o n s t (5)

我们把未知数

μ 的项加和起来，就可以看出

q∗u(μ) 恰好是个高斯分布

N(μ|uN,λ−1N) ，其中

u N λ N = λ 0 u 0 + N x ¯ λ 0 + N = (λ 0 + N) E [τ] (6)

同样对于 qr(τ) ，我们有

ln q * r (τ) = E u [ln p (X | μ, τ) + ln p (μ | τ)] + ln p (τ) + c o n s t = (a 0 - 1) ln τ - b o τ + 1 2 ln τ + N 2 ln τ - τ 2 E u [\sum n = 1 N (x n - μ) 2 + λ 0 (μ - u 0) 2] + c o n s t (7)

这里

q∗r(τ) 也恰好是个Gamma分布

Gam(τ|aN,bN) ,其中

a N b N = a 0 + N 2 = b 0 + 1 2 E u [\sum n = 1 N (x n - μ) 2 + λ 0 (μ - u 0) 2] (8)

首先，要注意我们并未对

qu(μ) 或

qr(τ) 的最佳形式作出任何假设，它们就自然地形成了似然函数的形式（高斯分布）和它的先验分布形式（Gamma分布）。
然后可以看到这里

qu(μ) 与

qr(τ) 通过

Er 与

Eu 相互依赖。我们展开这些式子，使用高斯分布与Gamma分布的性质(见备注1）计算它们的期望:

E [τ | a N, b N] = a N b N E [μ | u N, λ - 1 N] = u N E [X 2] = V a r (X) + (E [X]) 2 E [μ 2 | u N, λ - 1 N] = λ - 1 N + u 2 N (9)

将式子（9）带入之前的式子（7）消去期望，最终得到:

u N = λ 0 u 0 + N x ¯ λ 0 + N λ N = (λ 0 + N) a N b N a N = a 0 + N + 1 2 b N = b 0 + 1 2 [(λ 0 + N) (λ - 1 N + μ 2 N) - 2 (λ 0 u 0 + \sum n = 1 N x n) u N + (\sum n = 1 N x n 2) + λ 0 u 0 2)] (10)

所以这时候循环依赖的对象变成了

λN 和

bN 。然后我们迭代计算这些值

利用x的值，计算 aN 和 uN 。
给 λN 赋一个初始值
利用 λN ,获得新的 bN 。
利用 bN ,获得新的 λN 。
反复迭代3，4步，直到收敛为止。

最后我们就得到了近似分布 Q(Z) 的所有超参数的值。

另一种估计方法

首先我们看到，之前这个 lnp(X) （也就是似然）难求是因为 Z 未知，在我们这个例子里的具体表现为未知参数 μ 与 τ 之间存在耦合关系，即 μ 是由 τ 生成的( p(μ|τ) 。由于原模型存在共轭先验，所以变分后验分布的因子函数形式也可以用同样的共轭结构。因为我们定义 Q(Z) 分布的目的是要获得tractable的分布，所以可以在原模型的分布上作小修改，只要斩断耦合的部分即可。（这部分论述可能有问题，还需要多看书才行）

所以我们假设 q(μ) 与 q(τ) 之间相互独立，即 q(μ) 的参数不受 τ 的控制。但它依旧是个高斯分布， q(τ) 依旧是个Gamma分布，只是各自的参数未知。所以我们只要把下界看成这些分布的未知参数的函数形式，然后通过对各自参数的求导就能获得下界的极大值。(可能是因为指数家族的关系，未知参数的期望都有固定的函数形式，所以比较好求）

以之前为例，我们假设

q (μ) = N (μ | u N, λ - 1 N) q (τ) = G a m (τ | a N, b N) (11)

其中，

aN,bN,uN,λ−1N 均为未知参数。

写出变分下界

L = \int \int q (μ, τ) ln p ( X , μ , τ ) q ( μ , τ ) du dr = E q [ln p (X, μ, τ)] - E q [ln q (μ, τ)] = E q [ln p (X | μ, τ)] + E q [ln p (μ | τ)] + E q [ln p (τ)] - E q [ln q (μ)] - E q [ln q (τ)] (12)

其中

E q [ln p (X | μ, τ)] = N 2 E r [ln τ] - τ 2 E u [\sum n = 1 N (x n - μ) 2] E q [ln p (μ | τ)] = 1 2 E r [ln τ] - τ 2 E u [λ 0 (μ - u 0) 2] E q [ln p (τ)] = (a 0 - 1) E r [ln τ] - b o E r [τ] E q [ln q (μ)] = u N E q [ln p (τ)] = a N b N (13)

根据Gamma分布的性质，将消去式(13)中的期望，最后我们获得的式子将只包括

aN,bN,uN,λ−1N 这4个变量，分别对其求导，就可以得到每个参数的更新公式了（同式（10））。

备注：
1.Gamma分布

G a m (λ | a, b) = 1 Γ ( a ) b a λ a - 1 exp (- b λ) (14)

它的一些期望

E [λ] = a b v a r [λ] = a b 2 E [ln λ] = Ψ (a) - ln (b) (15)

其中

Ψ(a)=ddalnΓ(a)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。