解读:Deconstructing Denoising Diffusion Models for Self-Supervised Learning

摘要
在这项研究中,我们研究了最初用于图像生成的去噪扩散模型(DDM)的表征学习能力。我们的理念是解构 DDM,逐渐将其转换为经典的降噪自动编码器 (DAE)。这种解构过程使我们能够探索现代DDM的各个组件如何影响自监督表示学习。我们观察到,只有极少数现代组件对于学习良好的表示至关重要,而许多其他组件则是非必需的。我们的研究最终得出了一种高度简化的方法,并且在很大程度上类似于经典的DAE。我们希望我们的研究能够重新点燃人们对现代自我监督学习领域内一系列经典方法的兴趣。
引言

去噪是当前计算机视觉和其他领域生成模型趋势的核心。这些方法[36,37,38,23,29,11]今天通常被称为去噪扩散模型(DDM),它学习了去噪自动编码器(DAE)[39],该编码器可以消除由扩散过程驱动的多级噪声。这些方法实现了令人印象深刻的图像生成质量,特别是对于高分辨率、逼真的图像[33,32]——事实上,这些生成模型非常好,以至于它们似乎具有很强的识别表示来理解视觉内容。

虽然 DAE 是当今生成模型的强大工具,但它最初是为了以自监督的方式从数据中学习表示 [39]。在当今的表征学习社区中,可以说最成功的DAE变体是基于“掩蔽噪声”[39],例如预测语言中缺失的文本(例如,BERT [10])或图像中缺失的补丁(例如,MAE [21])。然而,从概念上讲,这些基于掩蔽的变体与去除加性(例如,高斯)噪声仍然有很大不同:虽然掩蔽标记明确指定了未知内容与已知内容,但在分离加性噪声的任务中没有干净的信号。然而,要用于生成的 DDM 主要基于加性噪声,这意味着它们可以在不明确标记未知/已知内容的情况下学习表示。

最近,人们越来越关注[40,28]检查DDM的表征学习能力。特别是,这些研究直接获取了现成的预训练DDM [23, 32, 11],这些DDM最初用于生成,并评估其表示质量以进行识别。他们报告了使用这些面向世代的模型的令人鼓舞的结果。然而,这些开创性的研究显然留下了悬而未决的问题:这些现成的模型是为生成而设计的,而不是为识别而设计的;目前还不清楚表示能力是通过去噪驱动的过程还是扩散驱动的过程获得的。

在这项工作中,我们更深入地研究了这些最近的探索所引导的方向[40,28]。相反使用面向世代的现成 DDM,我们训练面向识别的模型。我们理念的核心是解构 DDM,逐步将其更改为经典的 DAE。通过这个解构研究过程,我们检查了现代DDM的每一个方面(我们能想到的),目的是学习表征。这个研究过程使我们对 DAE 学习良好表示的关键组件有了新的理解。

令人惊讶的是,我们发现主要的关键组件是创建低维潜在空间的分词器[33]。有趣的是,这一观察结果在很大程度上与分词器的细节无关——我们探索了标准 VAE [26]、补丁级 VAE、补丁级 AE 和补丁级 PCA 编码器。我们发现,正是低维潜在空间,而不是分词器细节,使 DAE 能够实现良好的表示。

由于 PCA 的有效性,我们的解构轨迹最终达到了与经典 DAE 高度相似的简单架构(图 1)。我们使用按贴片的 PCA 将图像投影到潜在空间,添加噪声,然后通过逆 PCA 将其投影回去。然后,我们训练一个自动编码器来预测去噪图像。我们将这种架构称为“潜在去噪自动编码器”(l-DAE)。

我们的解构轨迹还揭示了介于 DDM 和经典 DAE 之间的许多其他有趣的属性。举个例子,我们发现即使使用单一的噪声水平(即不使用 DDM 的噪声调度),也可以通过我们的 l-DAE 获得不错的结果。使用多级噪声的作用类似于一种形式的数据增强,这可能是有益的,但不是促成因素。基于这一观察结果和其他观察结果,我们认为DDM的表示能力主要是通过去噪驱动过程获得的,而不是扩散驱动的过程。

最后,我们将结果与以前的基线进行比较。一方面,我们的结果比现成的同类产品要好得多(遵循[40,28]的精神):这是意料之中的,因为这是我们解构的起点。另一方面,我们的结果低于基线对比学习方法(例如,[7])和基于掩码的方法(例如,[21]),但差距缩小了。我们的研究表明,沿着 DAE 和 DDM 的方向有更大的进一步研究空间。

结论

我们已经报道过,l-DAE 在很大程度上类似于经典的 DAE,可以在自监督学习中表现出色。关键分量是添加噪声的低维潜在空间。我们希望我们的发现能够在当今的自我监督学习研究的背景下重新点燃人们对基于去噪的方法的兴趣。

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值