CS236 Deep Generative Models （3）

最新推荐文章于 2023-04-06 23:53:48 发布

Nemo555

最新推荐文章于 2023-04-06 23:53:48 发布

阅读量365

点赞数

分类专栏： Deep Generative Model 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_40056577/article/details/104476783

版权

Deep Generative Model 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

自回归模型-2

概述
一、Maximum Likelihood Learning（MLL）
- 1.1 Learning的背景
- 1.2 距离度量
二、Bayesian Network MLL
- 2.1 Learning parameters
- 2.2 Overfitting
三、小总结

概述

在自回归模型-1中，只介绍了怎么建模会带有Autoregressive的特性，即 $p_\theta(x)$ ，而并没有去叙述怎么学习参数；在这章会，主要介绍怎么去在Generative Model中去学习参数

一、Maximum Likelihood Learning（MLL）

回顾一下Generative的目标与可用之处。
目标：学习一个联合分布 $P_\theta(x_1,x_2,...x_n)$ ，使其逼近真实分布 $P (x)$ 生成的真实样本
可用之处：

$P_\theta(x_1,...,x_n)$ 可用来Generation， $x_{new}\sim P_\theta(x_1,...,x_n)$
Density Estimation， $p_\theta(x_{new})$ 越低，说明 $x_{new}$ 异常
Unsupervised representation Learning，从联合分布中习得一些有用的Features

1.1 Learning的背景

$P_{data}(X)$ ：data样本的真实分布
$P_{\theta}(X)$ ：一个构建起来的模型分布，尽可能通过真实分布生成的data样本，去逼近真实分布.
Data样本之间服从 $i . i . d$

Learning的过程：学习的参数使得模型分布与Data样本真实分布很接近，即 $d(P_{data}(X),P_{\theta}(X))$ 两者很小，实际上就是对真实分布做approximation

Approximaiton的方式具体，取决于任务需求：

如果我们对整个联合分布(Joint distribution)都感兴趣的，然后learn整个distribution，再去计算想要的conditional distribution。
如果我们仅仅是想做一个prediction，即conditional的，就不太需要计算整个Joint distribution，对真实分布的approximation就不用太精细。
如果我们对模型的结构很感兴趣，如知识图谱、因果推理这种，就可能需要更精细的approximation了。

为什么要讨论approximaiton呢？拿一个 $28\times28$ 的image来说，对每个pixel建模为一个随机变量，一个随机变量取值仅仅为 ${0,1\}$ ，就有 $2^{784}$ 个分布取值了，要去逼近这个真实分布，那得需要多少样本呀！

而Generative的Autoregressive Model 中的Learning，主要的是第一种approximation，我们都整个joint distribution都很感兴趣。

1.2 距离度量

$KL(p,q)=\sum_{x_0\sim p(x)}p(x_0)log\frac{p(x_0)}{q(x_0)}=\int p(x)log\frac{p(x)}{q(x)}dx=E_{x_0\sim p(x)}\Big[log\frac{p(x_0)}{q(x_0)}\Big]$

KL散度用来度量真实分布 $p (x)$ 与模型分布 $q (x)$ 之间的距离，即 $P_{data}$ 与 $P_\theta$ ，所以目标为找到一组参数 $\theta$ 使得 $KL(P_{data},P_\theta)$ 最小，公式表述如下：

$\begin{aligned} \argmin_\theta KL(P_{data},P_\theta)&=\argmin_\theta\int p_{data}(x)log\frac{p_{data}(x)}{p_\theta(x)}dx\\ &=\argmin_\theta E_{p_{data}(x)}\big[logp_{data}(x)\big]-E_{p_{data}(x)}\big[logp_\theta(x)\big]\\ &=\argmax_\theta E_{p_{data}(x)}\big[logp_\theta(x)\big] \end{aligned}$

因为 $p_{data}(x)$ 只有数据样本，假设有 ${x^{(1)},x^{(2)},...,x^{(N)}\}$ ，则通过MC Estimation估计期望，即

$\begin{aligned} \argmin_\theta KL(P_{data},P_\theta) &=\argmax_\theta E_{p_{data}(x)}\big[logp_\theta(x)\big]\\ &\approx \argmax_\theta \frac{1}{N}\sum_{i=1}^N logp_\theta(x^{(i)})使（用了i.i.d假设）\\ \end{aligned}$

二、Bayesian Network MLL

2.1 Learning parameters

从上篇文章可知，我们对联合分布建模，假设有n个随机变量，对每个随机变量 $x_i$ 之间的条件独立性用 $pa(x_i)$ 代表，即满足一个DAG图，称为Bayesian Network，于是一个样本生成式如下：

$P_\theta(x)=\prod_{i=1}^np_{neural}(x_i|pa(x_i);\theta_i)$

假设有数据集 $D=\{x^{(1)},x^{(2)},...,x^{(m)}\}$ ，Likelihood函数从上一节知:

$L(\theta,D)=\prod_{j=1}^mP_\theta(x^{(j)})=\prod_{j=1}^m\prod_{i=1}^np_{neural}(x_i^{(j)}|pa(x_i^{(j)});\theta_i)$

因此有：

$\begin{aligned} \argmax_\theta L(\theta,D)&=\argmax_\theta logL(\theta)\\ &=\argmax_\theta \sum_{j=1}^m\sum_{i=1}^nlogp_{neural}(x_i^{(j)}|pa(x_i^{(j)});\theta_i) \end{aligned}$

可以随机梯度下降更新:

$\theta^{t+1}\leftarrow \theta ^t +\alpha_t\nabla_\theta L(\theta^t)$

2.2 Overfitting

列举一些解决Overfitting的方式：

施加一些hard constraints如Weight Sharing、smaller network等
在objective function中加regularization约束expressive的模型
在held-out的验证集上评估generalization performance

三、小总结

学习的过程确实不难，难的是如何使用Autoregressive Model对问题进行建模的过程(Representation)。
对 $P_\theta(X)$ 建模后，应该适合Inference，再根据具体问题，施加一些假设即Prior Knowledge
接着通过Maximum Likelihood Learning学得参数，从而获得了整个联合分布的模型
最后再从联合分布中计算任务需求的条件分布

Nemo555

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CS236 Deep Generative Models （3）

自回归模型-2 概述一、Maximum Likelihood Learning（MLL）1.1 Learning的背景1.2 距离度量二、Bayesian Network MLL2.1 Learning parameters2.2 Overfitting三、小总结概述在自回归模型-1中，只介绍了怎么建模会带有Autoregressive的特性，即pθ(x)p_\theta(x)pθ(x)，而...
复制链接

扫一扫