统计推断的根源
对于统计推断的根源,先回顾贝叶斯公式:
p
(
θ
∣
x
)
=
p
(
x
∣
θ
)
p
(
θ
)
p
(
x
)
p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}
p(θ∣x)=p(x)p(x∣θ)p(θ)
其中,
θ
\theta
θ是模型的参数(注意贝叶斯流派认为一切皆随机变量),
p
(
θ
)
p(\theta)
p(θ)是事先给定的参数的经验分布,
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)是似然,
p
(
x
)
p(x)
p(x)是观测变量的概率,在某个给定的试验背景下,是一个常数,可以计算为:
p
(
x
)
=
∫
θ
p
(
x
∣
θ
)
p
(
θ
)
d
θ
p(x)=\int_{\theta}p(x|\theta)p(\theta)d\theta
p(x)=∫θp(x∣θ)p(θ)dθ
基于上述的贝叶斯公式,引出两个新概念:
- 贝叶斯推断:利用贝叶斯公式计算后验概率 p ( θ ∣ x ) p(\theta|x) p(θ∣x);
- 贝叶斯决策:在已有
N
N
N个样本
X
X
X的基础上,计算出现新增样本
x
^
\widehat{x}
x
的概率:
p
(
x
^
∣
X
)
p(\widehat{x}|X)
p(x
∣X),我们将模型参数
θ
\theta
θ作为变换的桥梁即有:
p ( x ^ ∣ X ) = ∫ θ p ( x ^ , θ ∣ X ) d θ = ∫ θ p ( x ^ ∣ θ ) p ( θ ∣ X ) d θ p(\widehat{x}|X)=\int_{\theta}p(\widehat{x},\theta|X)d\theta=\int_{\theta}p(\widehat{x}|\theta)p(\theta|X)d\theta p(x ∣X)=∫θp(x ,θ∣X)dθ=∫θp(x ∣θ)p(θ∣X)dθ可以看出贝叶斯决策的关键,需要先获得后验分布 p ( θ ∣ X ) p(\theta|X) p(θ∣X),再计算 p ( x ^ ∣ θ ) p(\widehat{x}|\theta) p(x ∣θ)关于 p ( θ ∣ X ) p(\theta|X) p(θ∣X)的期望。
因此,计算后验分布会是各种工作的重要环节,也就是推断(inference)的过程。
精确推断与近似推断
在一些简单的情况下,后验分布可以直接计算精确的解析解,称之为精确推断,但是这种方法对参与贝叶斯公式的分布要求严格,比如高斯分布,我们可以通过公式就得到结果高斯分布的均值与方差。
但实际情况往往复杂,没有办法直接计算后验分布的解析解,因此只能用近似的方法得到后验分布,即近似推断。近似推断又分为两大类:
- 确定性近似:变分推断;
- 随机近似:MCMC(Markov Chain Monte Carlo),在实际问题中,随机近似用途更广泛。
本篇先讨论变分推断,我们的目的是找到一个分布 Q ( θ ) Q(\theta) Q(θ)逼近一个没有办法找到解析解的后验分布 p ( θ ∣ X ) p(\theta|X) p(θ∣X),变分推断之所以称为确定性近似,是因为虽然结果不精确,但依然可以拿到一个解析解的形式。
我们令
X
X
X是观测数据,
θ
\theta
θ是参数,可以得到:
p
(
X
,
θ
)
=
p
(
X
)
p
(
θ
∣
X
)
⇒
p
(
X
)
=
p
(
X
,
θ
)
p
(
θ
∣
X
)
⇒
p(X,\theta)=p(X)p(\theta|X)\Rightarrow p(X)=\frac{p(X,\theta)}{p(\theta|X)}\Rightarrow
p(X,θ)=p(X)p(θ∣X)⇒p(X)=p(θ∣X)p(X,θ)⇒
l
o
g
[
p
(
X
)
]
=
l
o
g
[
p
(
X
,
θ
)
]
−
l
o
g
[
p
(
θ
∣
X
)
]
log[p(X)]=log[p(X,\theta)]-log[p(\theta|X)]
log[p(X)]=log[p(X,θ)]−log[p(θ∣X)]
我们引入
q
(
θ
)
q(\theta)
q(θ)近似目标后验分布
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X):
l
o
g
[
p
(
X
)
]
=
(
l
o
g
[
p
(
X
,
θ
)
]
−
l
o
g
[
q
(
θ
)
]
)
−
(
l
o
g
[
p
(
θ
∣
X
)
]
−
l
o
g
[
q
(
θ
)
]
)
log[p(X)]=(log[p(X,\theta)]-log[q(\theta)])-(log[p(\theta|X)]-log[q(\theta)])
log[p(X)]=(log[p(X,θ)]−log[q(θ)])−(log[p(θ∣X)]−log[q(θ)])
=
l
o
g
p
(
X
,
θ
)
q
(
θ
)
−
l
o
g
p
(
θ
∣
X
)
q
(
θ
)
=log\frac{p(X,\theta)}{q(\theta)}-log\frac{p(\theta|X)}{q(\theta)}
=logq(θ)p(X,θ)−logq(θ)p(θ∣X)
我们现在得到一个等式:
l
o
g
[
p
(
X
)
]
=
l
o
g
p
(
X
,
θ
)
q
(
θ
)
−
l
o
g
p
(
θ
∣
X
)
q
(
θ
)
log[p(X)]=log\frac{p(X,\theta)}{q(\theta)}-log\frac{p(\theta|X)}{q(\theta)}
log[p(X)]=logq(θ)p(X,θ)−logq(θ)p(θ∣X)
其实对于这个式子,在EM算法中已经见过,所以在这里的处理方法类似,对左右两边同时乘以
q
(
θ
)
q(\theta)
q(θ)并求积分:
- 左边式子为:
∫ θ l o g [ p ( X ) ] q ( θ ) d θ = l o g [ p ( X ) ] ∫ θ p ( θ ) d θ = l o g [ p ( X ) ] \int_{\theta}log[p(X)]q(\theta)d\theta=log[p(X)]\int_{\theta}p(\theta)d\theta=log[p(X)] ∫θlog[p(X)]q(θ)dθ=log[p(X)]∫θp(θ)dθ=log[p(X)] - 右边式子为:
∫ θ q ( θ ) l o g p ( X , θ ) q ( θ ) d θ − ∫ θ q ( θ ) l o g p ( θ ∣ X ) q ( θ ) d θ = ∫ θ q ( θ ) l o g p ( X , θ ) q ( θ ) d θ + ∫ θ q ( θ ) l o g q ( θ ) p ( θ ∣ X ) d θ \int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta-\int_{\theta}q(\theta)log\frac{p(\theta|X)}{q(\theta)}d\theta=\int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta+\int_{\theta}q(\theta)log\frac{q(\theta)}{p(\theta|X)}d\theta ∫θq(θ)logq(θ)p(X,θ)dθ−∫θq(θ)logq(θ)p(θ∣X)dθ=∫θq(θ)logq(θ)p(X,θ)dθ+∫θq(θ)logp(θ∣X)q(θ)dθ
对于右边式子,注意两项,我们作以下标记:
L
(
q
)
=
∫
θ
q
(
θ
)
l
o
g
p
(
X
,
θ
)
q
(
θ
)
d
θ
L(q)=\int_{\theta}q(\theta)log\frac{p(X,\theta)}{q(\theta)}d\theta
L(q)=∫θq(θ)logq(θ)p(X,θ)dθ
K
L
(
q
∣
∣
p
)
=
∫
θ
q
(
θ
)
l
o
g
q
(
θ
)
p
(
θ
∣
X
)
d
θ
KL(q||p)=\int_{\theta}q(\theta)log\frac{q(\theta)}{p(\theta|X)}d\theta
KL(q∣∣p)=∫θq(θ)logp(θ∣X)q(θ)dθ
其中,
K
L
(
q
∣
∣
p
)
KL(q||p)
KL(q∣∣p)是KL散度的定义,描述了
q
(
θ
)
q(\theta)
q(θ)和
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)两个分布的距离,并且
K
L
(
q
∣
∣
p
)
≥
0
KL(q||p)\geq 0
KL(q∣∣p)≥0,因此有:
l
o
g
[
p
(
X
)
]
=
L
(
q
)
+
K
L
(
q
∣
∣
p
)
log[p(X)]=L(q)+KL(q||p)
log[p(X)]=L(q)+KL(q∣∣p)
对于
l
o
g
[
p
(
X
)
]
log[p(X)]
log[p(X)],可以视为与参数
θ
\theta
θ无关的量,当
X
X
X固定时,
l
o
g
[
p
(
X
)
]
log[p(X)]
log[p(X)]的值也就固定,由于
K
L
(
q
∣
∣
p
)
≥
0
KL(q||p)\geq 0
KL(q∣∣p)≥0,因此
L
(
q
)
L(q)
L(q)的取值上限就是
l
o
g
[
p
(
X
)
]
log[p(X)]
log[p(X)],于是我们让
L
(
q
)
L(q)
L(q)取到最大,从而迫使
K
L
(
q
∣
∣
p
)
=
0
KL(q||p)=0
KL(q∣∣p)=0。当KL散度为0时,也就代表
q
(
θ
)
q(\theta)
q(θ)近似等于
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)。
扩展:变分法和变分推断的关系
首先,我现在简要介绍变分,对于普通的函数 f ( x ) f(x) f(x),我们可以认为 f f f是一个关于 x x x的一个算子,其作用是将 x x x映射到 f ( x ) f(x) f(x)。那么类比这种模式,假设存在函数算子 F F F,它是关于 f ( x ) f(x) f(x)的函数算子,可以将 f ( x ) f(x) f(x)映射成 F ( f ( x ) ) F(f(x)) F(f(x));
而变分指的是泛函的变分,泛函就是上面提到的函数的函数,一般,泛函空间的自变量我们称为宗量(自变函数),当宗量变化了一点微小量而导致了泛函值变化了多少,这就是变分(这可以与微积分中的函数微分进行对比,只是自变量换成了宗量);
而回顾上面的变分推断,我们的目标是最大化 L ( q ) L(q) L(q),也就是要先找到 L ( q ) L(q) L(q)的极值,所以我要先针对泛函 L ( q ) L(q) L(q)计算它的变分,在微积分中可以理解为导数,我们在变分为0时,就找到了泛函的极值,也就是让泛函最优的宗量 q ( θ ) q(\theta) q(θ),这就是变分推断中变分的意义。
761

被折叠的 条评论
为什么被折叠?



