[解读] Your Classifier is Secretly an Energy Based Model and You Should Treat it Like One

最新推荐文章于 2023-03-02 18:55:46 发布

天在那边

最新推荐文章于 2023-03-02 18:55:46 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/weipf8/article/details/105756574

版权

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

深度学习

24 篇文章

订阅专栏

本文提出了一种新颖的方法，将常见的分类模型重新解释为基于能量的模型，从而创建了一个结合了生成和判别能力的混合模型。这种方法不仅提高了分类准确率，还改善了样本生成的质量。模型的训练涉及对数似然的优化，并使用Stochastic Gradient Langevin Dynamics进行采样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

链接: https://arxiv.org/abs/1912.03263v2

本文提出一个解释常用分类模型的新思路, 将之解读为一种基于能量的模型, 得到一个生成模型和判别模型的混合模型, 这种混合模型的训练, 能够同时提高分类精度和样本生成质量.

本文的方法

首先介绍一下基于能量的模型 (Energy Based Models).
$p_{\theta}(\mathrm{x})=\frac{\exp \left(-E_{\theta}(\mathrm{x})\right)}{Z(\theta)}.$
其中, $E_{\theta}(\mathrm{x}): \mathbb{R}^{D} \rightarrow \mathbb{R}$ , 被称为能量函数, $Z(\theta)=\int_{\mathbf{x}} \exp \left(-E_{\theta}(\mathbf{x})\right)$ 被称为配分函数(partition function). 要训练这个函数, 可以考虑优化对数似然的方法. 对 $\theta$ 求梯度:
$\frac{\partial \log p_{\theta}(\mathrm{x})}{\partial \theta}=\mathbb{E}_{p_{\theta}\left(\mathrm{x}^{\prime}\right)}\left[\frac{\partial E_{\theta}\left(\mathrm{x}^{\prime}\right)}{\partial \theta}\right]-\frac{\partial E_{\theta}(\mathrm{x})}{\partial \theta}.$
比较困难的地方是难以从 $p_{\theta}(\mathbf{x})$ 采样. 可以采用 MCMC 方法来解决这个难点. 经过这几年的发展, 又有了新的采样方法, 也是本文将要采用的 Stochastic Gradient Langevin Dynamics (SGLD) (Welling & Teh, 2011), 采样方法为
$\mathbf{x}_{0} \sim p_{0}(\mathbf{x}), \quad \mathbf{x}_{i+1}=\mathbf{x}_{i}-\frac{\alpha}{2} \frac{\partial E_{\theta}\left(\mathbf{x}_{i}\right)}{\partial \mathbf{x}_{i}}+\epsilon, \quad \epsilon \sim \mathcal{N}(0, \alpha).$
下面考虑一个通用形式的 $K$ 类分类问题.
$p_{\theta}(y | \mathbf{x})=\frac{\exp \left(f_{\theta}(\mathbf{x})[y]\right)}{\sum_{y^{\prime}} \exp \left(f_{\theta}(\mathbf{x})\left[y^{\prime}\right]\right)}$
其中 $f_{\theta}(\mathbf{x})[y]$ 是指网络输出向量的第 $k$ 个分量, 通过 softmax 归一化得到属于某一类别的概率. 保持 $f_{\theta}$ 不变, 下面定义一个基于能量的模型:
$p_{\theta}(\mathbf{x}, y)=\frac{\exp \left(f_{\theta}(\mathbf{x})[y]\right)}{Z(\theta)}.$
其中 $Z(\theta)$ 是未知的归一化常数, 根据前面能量模型的定义, 可以看出 $E_{\theta}(\mathbf{x}, y)=-f_{\theta}(\mathbf{x})[y]$ . 通过对 $y$ 积分, 可得到:
$p_{\theta}(\mathrm{x})=\sum_{y} p_{\theta}(\mathrm{x}, y)=\frac{\sum_{y} \exp \left(f_{\theta}(\mathrm{x})[y]\right)}{Z(\theta)}$
再根据能量函数的定义, 可以得到某个数据 $\mathbf{x}$ 的能量为:
$E_{\theta}(\mathrm{x})=-\log \operatorname{SumExp}_{y}\left(f_{\theta}(\mathrm{x})[y]\right)=-\log \sum_{y} \exp \left(f_{\theta}(\mathrm{x})[y]\right)$
下面是优化模型部分, 我们的目标是最大化似然 $p(\mathbf{x},y)$ , 但由于 $p(\mathbf{x}), p(\mathbf{x},y)$ 是非归一化的, 因此很难直接优化, 所以对 $p(\mathbf{x},y)$ 做分解:
$\log p_{\theta}(\mathbf{x}, y)=\log p_{\theta}(\mathbf{x}) \cdot p_{\theta}(y | \mathbf{x}) = \log p_{\theta}(\mathbf{x})+\log p_{\theta}(y | \mathbf{x}).$
通过优化最后两项来达到优化目标, 即 $\log p_{\theta}(y | \mathbf{x})$ 使用交叉熵损失, $\log p_{\theta}(\mathbf{x})$ 使用 SGLD 方法.

参考

Jianwen Xie, Yang Lu, Song-Chun Zhu, and Yingnian Wu. A theory of generative convnet. In International Conference on Machine Learning, pp. 2635–2644, 2016.
Yunfu Song and Zhijian Ou. Learning neural random fields with inclusive auxiliary generators. arXiv preprint arXiv:1806.00271, 2018.
Max Welling and Yee W Teh. Bayesian learning via stochastic gradient langevin dynamics. In Proceedings of the 28th international conference on machine learning (ICML-11), pp. 681–688, 2011.

本人才疏学浅, 如有遗漏或错误之处, 请多多指教!