机器学习-白板推导系列笔记（十二）-变分推断（VI）

最新推荐文章于 2022-09-19 13:00:00 发布

及时行樂_

最新推荐文章于 2022-09-19 13:00:00 发布

阅读量710

点赞数 1

分类专栏：哔站机器学习白板推导文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41485273/article/details/111490827

版权

本文详细介绍了变分推断的概念，包括其与EM算法的联系、随机梯度变分推断（SGVI）及其重参数化技巧。通过对概率模型的探讨，展示了在机器学习中如何进行近似推断，特别是通过优化变分下界（ELBO）来寻找最佳的近似后验分布。

摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频： VI变分推断_126min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、背景

对于概率模型

从频率派角度来看就会是一个优化问题
从贝叶斯角度来看就会是一个积分问题

从贝叶斯来看

$p(\hat{x}|x)=\int _{\theta }p(\hat{x},\theta |x)\mathrm{d}_\theta \\=\int _{\theta }p(\hat{x}|\theta ,x)p(\theta |x)\mathrm{d}_\theta \\ \overset{}{=}\int _{\theta }p(\hat{x}|\theta)p(\theta |x)\mathrm{d}_\theta \\=E_{\theta |x}[p(\hat{x}|\theta )]$

Inference分为：

精确推断
近似推断（确定性近似—VI；随机近似—MCMC、MH、Gibbs）

优化问题分为：

回归 model： $f(w)=w^Tx$

loss-function：无约束
$L(w)=\sum^{N}_{i=1}||w^Tx_i-y_i||^2$
$\hat{w}=\arg\min L(w)$
解法：
1.解析解：求导令为 $0$ ，得 $w^*=(X^TX)^{-1}X^TY$
2.数值解：GD、SGD

SVM（分类）

$f(w)=sign(w^Tx+b)$
loss-function：有约束
$\min\frac{1}{2}w^Tw$
$\ y_i(w^Tx_i+b)\geq 1,i=1,2,\cdots,N$
connex优化对偶

$\hat{\theta}=\arg\max\log p(x|\theta)$
$\theta^{(t+1)}=\underset{\theta}{\argmax\int p(x,z|\theta)\cdot p(z|x,\theta^{(t)}){d}z}$

二、公式

Data：

$x$ :observed variable $\rightarrow X:\left \{x_{i}\right \}_{i=1}^{N}$
$z$ :latent variable + parameter $\rightarrow Z:\left \{z_{i}\right \}_{i=1}^{N}$
$(X, Z)$ :complete data

引入分布 $q (z)$ ：

$log\; p(x)=log\; p(x,z)-log\; p(z|x)=log\; \frac{p(x,z)}{q(z)}-log\; \frac{p(z|x)}{q(z)}$

式子两边同时对 $q (z)$ 求积分：

左边 $=\int _{z}q(z)\cdot log\; p(x |\theta )\mathrm{d}z=log\; p(x|\theta )\int _{z}q(z )\mathrm{d}z=log\; p(x|\theta )$
右边 $=\underset{ELBO(Evidence\; Lower\; Bound)}{\underbrace{\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}}\underset{KL(q(z)||p(z|x,\theta ))}{\underbrace{-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}}\\ =\underset{变分}{\underbrace{L(q)}} + \underset{\geq 0}{\underbrace{KL(q||p)}}$

当 $q$ 与 $p$ 相等时， $K L (q ∣ ∣ p)$ 等于 $0$ ，此时 $K L (q ∣ ∣ p)$ 取值最小，所以这时就是要使 $L (q)$ 越大越好：

$\tilde{q}(z)=\underset{q(z)}{argmax}\; L(q)\Rightarrow \tilde{q}(z)\approx p(z|x)$

我们对 $q (z$ )做以下假设，将多维变量的不同维度分为 $M$ 组，组与组之间而且是相互独立的，所以：

$q(z)=\prod_{i=1}^{M}q_{i}(z_{i})$

此时我们固定 $q_{i}(z_{i}),i\neq j$ 来求 $q_{j}(z_{j})$ ，所以：

$L(q)=\underset{①}{\underbrace{\int _{z}q(z)log\; p(x,z)\mathrm{d}z}}-\underset{②}{\underbrace{\int _{z}q(z)log\; q(z)\mathrm{d}z}}$

最低0.47元/天解锁文章

及时行樂_

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习-白板推导系列笔记（十二）-变分推断（VI）

白板推导系列（十二）-VI变分推断一、背景二、公式三、联系EM算法四、随机梯度变分推断（SGVI）（一）直接求导（二）重参数化技巧此文章主要是结合哔站shuhuai008大佬的白板推导视频： VI变分推断_126min一、背景对于概率模型从频率派角度来看就会是一个优化问题从贝叶斯角度来看就会是一个积分问题从贝叶斯来看p(x^∣x)=∫θp(x^,θ∣x)dθ=∫θp(x^∣θ,x)p(θ∣x)dθ=∫θp(x^∣θ)p(θ∣x)dθ=Eθ∣x[p(x^∣θ)]p(\hat{x}|x)=\i
复制链接

扫一扫

专栏目录