给定网络参数
ω
\boldsymbol \omega
ω, 训练数据集
D
=
(
X
,
Y
)
\mathbf{D} = (\mathbf{X}, \mathbf{Y})
D=(X,Y), 贝叶斯推断是将网络参数
ω
\boldsymbol \omega
ω 建模为一个符合某种分布的随机变量而不是确定的值,故给定测试数据
x
∗
\mathbf{x}^{*}
x∗, 贝叶斯网络求取对应预测值
y
∗
\mathbf{y}^{*}
y∗ 的公式为:
p
(
y
∗
∣
x
∗
,
X
,
Y
)
=
∫
p
(
y
∗
∣
x
∗
,
ω
)
p
(
ω
∣
X
,
Y
)
d
ω
p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \mathbf{X}, \mathbf{Y}\right)=\int p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \boldsymbol{\omega}\right) p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}) \mathrm{d} \boldsymbol{\omega}
p(y∗∣x∗,X,Y)=∫p(y∗∣x∗,ω)p(ω∣X,Y)dω 上式中
p
(
y
∗
∣
x
∗
,
ω
)
p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \boldsymbol{\omega}\right)
p(y∗∣x∗,ω) 为网络输出,需要求的是
p
(
ω
∣
X
,
Y
)
p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})
p(ω∣X,Y),但是这个不存在解析解,所以便引入了变分推理来近似,用
q
(
ω
)
q(\boldsymbol{\omega})
q(ω) 来近似
p
(
ω
∣
X
,
Y
)
p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})
p(ω∣X,Y),所以目标函数可以指定为最小化
q
(
ω
)
q(\boldsymbol{\omega})
q(ω) 和
p
(
ω
∣
X
,
Y
)
p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})
p(ω∣X,Y) 之间的差异,即最小化:
KL
(
q
(
ω
)
∣
p
(
ω
∣
X
,
Y
)
)
\operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}))
KL(q(ω)∣p(ω∣X,Y))。
又因为:
KL
(
q
(
ω
)
∣
p
(
ω
∣
X
,
Y
)
)
=
∫
q
(
ω
)
log
q
(
ω
)
p
(
ω
∣
X
,
Y
)
d
ω
=
∫
q
(
ω
)
log
q
(
ω
)
d
ω
−
∫
q
(
ω
)
log
p
(
ω
∣
X
,
Y
)
d
ω
=
∫
q
(
ω
)
log
q
(
ω
)
d
ω
−
∫
q
(
ω
)
log
p
(
Y
∣
X
,
ω
)
p
(
X
)
p
(
ω
)
p
(
X
,
Y
)
d
ω
=
KL
(
q
(
ω
)
∣
p
(
ω
)
)
−
∫
q
(
ω
)
log
p
(
Y
∣
X
,
ω
)
d
ω
−
p
(
X
)
+
p
(
X
,
Y
)
\begin{aligned} \operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})) &= \int q(\boldsymbol{\omega}) \log \frac{q(\boldsymbol{\omega})}{p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})} \mathrm{d} \boldsymbol{\omega} \\ &= \int q(\boldsymbol{\omega}) \log q(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - \int q(\boldsymbol{\omega}) \log p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}) \mathrm{d} \boldsymbol{\omega} \\ &= \int q(\boldsymbol{\omega}) \log q(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - \int q(\boldsymbol{\omega}) \log \frac{p(\mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) p(\mathbf{X})p(\boldsymbol{\omega})}{p(\mathbf{X}, \mathbf{Y})} \mathrm{d} \boldsymbol{\omega} \\ &= \operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega})) - \int q(\boldsymbol{\omega}) \log p( \mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - p(\mathbf{X}) + p(\mathbf{X}, \mathbf{Y}) \end{aligned}
KL(q(ω)∣p(ω∣X,Y))=∫q(ω)logp(ω∣X,Y)q(ω)dω=∫q(ω)logq(ω)dω−∫q(ω)logp(ω∣X,Y)dω=∫q(ω)logq(ω)dω−∫q(ω)logp(X,Y)p(Y∣X,ω)p(X)p(ω)dω=KL(q(ω)∣p(ω))−∫q(ω)logp(Y∣X,ω)dω−p(X)+p(X,Y) 所以优化目标变为最小化:
KL
(
q
(
ω
)
∣
p
(
ω
)
)
−
∫
q
(
ω
)
log
p
(
Y
∣
X
,
ω
)
d
ω
\operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega})) - \int q(\boldsymbol{\omega}) \log p(\mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega}
KL(q(ω)∣p(ω))−∫q(ω)logp(Y∣X,ω)dω 上式为 Evidence Lower Bound (ELBO) 的负数形式,一般是最大化 ELBO
变分推理(Variational Inference)
最新推荐文章于 2024-01-17 16:45:36 发布