解耦只是一个巧合？

最新推荐文章于 2024-12-24 07:00:00 发布

Jie Qiao

最新推荐文章于 2024-12-24 07:00:00 发布

阅读量557

点赞数

文章标签：算法人工智能

本文链接：https://blog.csdn.net/a358463121/article/details/132761859

版权

文章探讨了VAE中的重构误差和正则项如何影响模型的解耦能力。重构误差驱动VAE将相似图片聚集，而正则项控制过度拟合。当数据集存在渐进的相似性时，VAE能够学习解耦；反之，如果没有这种渐进性，模型可能无法有效学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文分享一篇在IJCAI2023看到的文章：Overlooked Implications of the Reconstruction Loss for VAE Disentanglement

首先回顾下VAE，其loss函数有两项，一项是重构误差，另一项是正则项：
$\begin{aligned} \mathcal{L}_{\mathrm{rec}}(\boldsymbol{x},\hat{\boldsymbol{x}})& =\mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{z}|\boldsymbol{x})}\left[\log p_{\boldsymbol{\theta}}(\boldsymbol{x}|\boldsymbol{z})\right] \\ \mathcal{L}_{\mathrm{reg}}(\boldsymbol{x})& =-D_{\mathrm{KL}}\left(q_{\phi}(z|\boldsymbol{x})\parallel p_{\boldsymbol{\theta}}(\boldsymbol{z})\right) \\ \mathcal{L}_{\mathrm{VAE}}(\boldsymbol{x},\hat{\boldsymbol{x}})& =\mathcal{L}_{\mathrm{rec}}(\boldsymbol{x},\hat{\boldsymbol{x}})+\mathcal{L}_{\mathrm{reg}}(\boldsymbol{x}) \end{aligned}$

训练过VAE的人或许会知道，重构项在VAE的训练的loss中占的权重是比正则项要高的，所以重构误差是VAE的主要优化目标。因此，为了降低重构误差，VAE会将那些长得像图片，放在相近的latent space中。这是因为，VAE还有一个随机采样的过程，这样，即使隐变量z随机“偏移”了一点，也能输出一个“长得像”的图片，从而降低重构误差。

那正则项的作用是什么呢，看下图
在这里插入图片描述
正则项越弱，则重构的部分训练将更充分，从而导致这个隐空间的overlap会更少，最极端的情况就是查表，每个图片就对应到一个特定的取值上，可以与其他图片充分的区分开来。

正则项越强，则重构的部分训练不太充分，导致隐空间的overlap会增多，也就是隐空间的区分度下降了，也就导致重构误差增大。

所以解耦这件事情，直觉上就是重构的时候，把那些较为相似(overlap)的图片聚在一起，然后又恰好成了解耦的表征。

在这里插入图片描述
这也解释了为什么在一些解耦的数据集上，VAE能解耦的原因，因为他们的数据集是遍历所有可能出现的factor取值，然后不同取值之间有个微小切换，而其余大部分的地方是重叠的，这是这个让他学到了这个解耦的表征。

为了验证这一点，我们可以看看数据集上，图片和图片之间的距离，用

$\operatorname{d_{gt}} (\boldsymbol{x}^{(a)} ,\boldsymbol{x}^{(b)} )=\| \boldsymbol{y}^{(a)} -\boldsymbol{y}^{(b)} \| _{1} .$

这个东西可以理解为重构误差，如果我们的decoder是完美的，那么，抽样过程会引入误差， $\displaystyle z^{( b)} \sim q_{\phi }\left( z|x^{( a)}\right)$ ，从而

$\begin{aligned} \mathrm{d}_{\mathrm{pcv}} (\boldsymbol{x}^{(a)} ,\boldsymbol{x}^{(b)} ) & =\lim _{\hat{\boldsymbol{x}}\rightarrow \boldsymbol{x}}\mathcal{L}_{\mathrm{rec}} (\boldsymbol{x}^{(a)} ,\hat{\boldsymbol{x}}^{(b)} )\\ & =\mathcal{L}_{\mathrm{rec}} (x^{(a)} ,\boldsymbol{x}^{(b)} ). \end{aligned}$