为自监督学习重构去噪扩散模型

本文链接：https://blog.csdn.net/qq_40943760/article/details/136114327

在这项研究中，作者检验了最初用于图像生成的去噪扩散模型（DDM）的表示学习能力。其理念是解构DDM，逐渐将其转化为经典的去噪自动编码器（DAE）。这一解构过程让大家能够探索现代DDM的各个组成部分如何影响自监督的表征。观察到，只有极少数现代组件对学习好的表征至关重要，而其他许多组件则不重要。研究最终得出了一种高度简化的方法，在很大程度上类似于经典的DAE。

来自：Deconstructing Denoising Diffusion Models for Self-Supervised Learning

背景概述

去噪是当前计算机视觉和其他领域生成模型的核心。如今，这些方法通常被称为去噪扩散模型（DDM），学习了一种去噪自编码器（DAE），它可以去除由扩散过程驱动的多个级别的噪声。这些方法实现了令人印象深刻的图像生成质量，尤其是高分辨率、逼真的图像。这不禁让人想到，这些生成模型非常好，似乎对理解视觉内容有很强的表示。

虽然DAE是当今生成模型的强大力量，但它最初是为了以自监督的方式从数据中学习表示而提出的。在当今的表示学习社区中，DAE最成功的变体可以说是基于“masking noise”，例如预测语言中的缺失文本（例如，BERT）或图像中的缺失patch（例如，MAE）。然而，在概念上，这些基于mask的变体与去除加性噪声（例如，高斯噪声）存在显著不同：mask的token明确指定未知与已知内容，但在分离加性噪声的任务中没有明确的信号可用。然而，今天的DDM主要基于加性噪声，这意味着它们可以在不显式标记未知和已知内容的情况下学习表示。

最近，人们对DDM的表征学习能力越来越感兴趣。特别是，这些研究直接来自最初用于生成的预训练DDM，并评估其表示质量以进行识别。他们报告说，使用这些模型取得了令人鼓舞的结果。然而，这些开创性的研究显然留下了悬而未决的问题：这些现成的模型是为生成而设计的，而不是识别；目前还不清楚表示能力是通过去噪过程还是扩散过程获得的。

在这项工作中，作者对这些最近的探索相关初始化的方向进行了更深入的研究。不像之前使用面向生成的现成（off-the-shelf）DDM，作者训练面向识别的模型。核心是解构DDM，逐步将其转变为经典的DAE。通过这个解构性的研究过程，作者考察了现代DDM的每一个方面，目的是学习表征。这一研究过程使我们对DAE学习良好表示的关键组件有了新的理解。

令人惊讶的是，作者发现主要的关键组件是标记器（tokenizer），它创建了一个低维的潜在空间。有趣的是，这一观察结果在很大程度上独立于tokenizer的具体情况：作者探索了标准VAE、patch-wise VAE、patch-wise AE和patch-wise PCA编码器。发现使DAE能够实现良好的表示的是低维潜在空间，而不是tokenizer的细节。

由于PCA的有效性，解构轨迹最终达到了一个与经典DAE高度相似的简单架构（图1）。使用patch-wise PCA将图像投影到潜在空间上，添加噪声，然后通过逆PCA将其投影回来。然后训练一个自动编码器来预测去噪图像。作者将这种架构称为“潜在去噪自动编码器”（l-DAE，latent Denoising Autoencoder）。
fig1

图1：这种简单的架构在很大程度上类似于经典的DAE（主要区别是将噪声添加到潜在的DAE中），并实现了有竞争力的自监督学习性能。

解构轨迹还揭示了DDM和经典DAE之间的许多其他有趣的特性。例如，即使使用单个噪声水平（即，不使用DDM的噪声scheduling），也可以让l-DAE获得不错的结果。使用多个级别的噪声的作用类似于一种形式的数据增强，这可能是有益的，但不是一个促成因素。根据这一点和其他观察结果，作者认为DDM的表示能力主要是通过去噪驱动的过程获得的，而不是扩散驱动的过程。

最后，作者将结果与以前的基线进行比较。一方面，我们的结果比现有的结果要好得多：这正如预期的那样，因为这是解构的起点。另一方面，结果没有达到基线对比学习方法和基于mask的方法，但差距缩小了。研究表明，在DAE和DDM的方向上还有更多的研究空间。

去噪扩散模型

解构研究始于去噪扩散模型。简要描述了DDM如下。

扩散过程从干净的数据点 $z_{0}$ 开始，按顺序添加噪声。在指定的时间step $t$ ，加噪后的数据 $z_{t}$ 为： $z_{t}=\gamma_{t}z_{0}+\sigma_{t}\epsilon$ 其中， $\epsilon\sim N(0,I)$ 是一个从高斯分布采样的noise map， $\gamma_{t}$ 和 $\sigma_{t}$ 分别定义了信号和噪声的scaling因子。此外， $\gamma_{t}^{2}+\sigma_{t}^{2}=1$ 。