ICLR2022/扩散模型/语义分割:基于扩散模型的标签高效语义分割Label-efficient semantic segmentation with diffusion models

论文下载
开源代码

0.摘要

去噪扩散概率模型最近受到了大量关注,因为它们优于其他方法,如GAN,并且目前提供了最先进的生成性能。扩散模型的卓越性能使其在多个应用中成为一个有吸引力的工具,包括绘画、超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以作为语义分割的工具,特别是在标签数据稀缺的情况下。特别是,对于几个预训练的扩散模型,我们研究了来自执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明,这些激活有效地从输入图像中捕获语义信息,并且似乎是分割问题的优秀像素级表示。基于这些观察结果,我们描述了一种简单的分割方法,即使只提供少数训练图像,该方法也可以工作。我们的方法在多个数据集上显著优于现有的替代方法,以实现相同的人工监督量

1.概述

去噪扩散概率模型(DDPM)(Sohl-Dickstein等人,2015年;Ho等人,2020年)最近在模拟自然图像分布的各种方法中,无论是在单个样本的真实性还是其多样性方面,都表现得更好(Dhariwal&Nichol,2021)。DDPM的这些优势在应用中得到了成功的利用,例如彩色化(Song等人,2021)、补漆(Song等,2021)、超分辨率(Saharia等人,2021;Li等,2021b)和语义编辑(Meng等人,2021),与GAN相比,DDPM通常取得更令人印象深刻的结果。
然而,到目前为止,DDPM还没有被用作非歧视性计算机视觉问题的有效图像表示的来源。尽管先前的文献已经证明,各种生成范式,如GAN(Donahue&Simonyan,2019)或自回归模型(Chen等人,2020a),可以用于提取常见视觉任务的表示,但目前尚不清楚DDPM是否也可以作为表示学习者。在本文中,我们在语义分割的背景下对这个问题给出了肯定的答案
特别是,我们研究了U-Net网络的中间激活,该网络近似于DDPM中反向扩散过程的马尔可夫步骤。直观地说,这个网络学会了去噪其输入,并且不清楚为什么中间激活应该捕获高级视觉问题所需的语义信息。然而,我们表明,在某些扩散步骤中,这些激活确实捕获了这些信息,因此,可以潜在地用作下游任务的图像表示。考虑到这些观察结果,我们提出了一种简单的语义分割方法,该方法利用了这些表示,即使只提供了几个带标签的图像,也能成功地工作。在几个数据集上,我们表明,在相同的监督量下,我们基于DDPM的分割方法优于现有的基线。
总之,我们论文的贡献如下:

  • 我们研究了最先进的DDPM学习的表示,并表明它们捕获了对下游视觉任务有价值的高级语义信息
  • 我们设计了一种简单的语义分割方法,该方法利用这些表示,并在少数镜头操作点中执行替代方案
  • 我们在相同的数据集上比较了基于DDPM的表示和基于GAN的表示,并证明了前者在语义分割方面的优势

2.相关工作

在本节中,我们简要介绍了与我们的工作相关的现有研究路线。

2.1.扩散模型

扩散模型(Sohl Dickstein等人,2015;Ho等人,2020)是一类生成模型,通过马尔可夫链的端点近似真实图像的分布,马尔可夫链起源于简单的参数分布,通常是标准高斯分布。每一个马尔可夫步骤都是由一个深度神经网络建模的,该网络可以有效地学习用已知的高斯核反转扩散过程。Ho等人强调了扩散模型和分数匹配的等价性(Song&Ermon,2019;2020),表明它们是通过迭代去噪过程将简单已知分布逐渐转换为目标分布的两个不同视角。最近的工作(Nichol,2021;Dhariwal&Nichol(2021)开发了更强大的模型架构以及不同的高级目标,这导致DDPM在生成质量和多样性方面战胜了GAN。DDPM已广泛应用于多种应用,包括图像彩色化(Song等人,2021)、超分辨率(Saharia等人,2021;Li等人,2021b)、上色(Song等,2021)和语义编辑(Meng等人,2021)。在我们的工作中,我们证明了也可以成功地将它们用于语义分割。

2.2.基于生成模型的图像分割

基于生成模型的图像分割是当前一个活跃的研究方向,然而,现有的方法主要基于GAN。第一行工作(Voynov&Babenko,2020;Voynov等人,2021;Melas-Kyriazi等人,2021)基于这样的证据,即最先进的GAN的潜在空间具有与不同影响前地/背景像素的效果相对应的方向,这允许生成合成数据来训练分割模型。然而,这些方法目前只能执行二进制分割,目前还不清楚它们是否可以用于语义分割的一般设置。第二行作品(Zhang等人,2021;Tritrong等人,2021;Xu,2021;Galeev等人,2020)与我们的研究更为相关,它们基于GAN中获得的中间表示。特别是,(Zhang等人,2021)中提出的方法根据这些表示训练像素类预测模型,并确认其标记效率。在实验部分,我们将(Zhang等人,2021)的方法与基于DDPM的方法进行了比较,并展示了我们解决方案的几个独特优势

2.3.区分性任务生成模型的表征

作为表征学习者,生成模型的使用已经被广泛研究用于全球预测(Donahue&Si-monyan,2019;Chen等人,2020a)和密集预测问题(Zhang等人,2021;Tritronge等人,2021;Xu,2021;Xu等人,2021)。尽管先前的工作强调了这些表示的实际优势,例如分布外鲁棒性(Li等人,2021a),但与基于对比学习的替代无监督方法相比,生成模型作为表示学习者受到的关注较少(Chen等人,2020b)。主要原因可能是难以在复杂多样的数据集上训练高质量的生成模型。然而,鉴于DDPM最近在Imagenet上的成功(Deng等人,2009年),我们可以预计,这一方向将在未来吸引更多的关注。

3.扩散模型表示

在接下来一节中,我们研究了通过扩散模型学习的图像表示。首先,我们简要概述了DDPM框架。然后,我们描述了如何使用DDPM提取特征,并研究这些特征可能会捕获什么样的语义信息

  • 背景

扩散模型将噪声xT∼(0,I)通过逐渐去噪xT到噪声较小的采样xt转换为采样x0。形式上,我们得到了一个正向扩散过程:
在这里插入图片描述
对于某些固定方差表β1,…,βt
重要的是,噪声样本x可以直接从数据x0获得:
在这里插入图片描述
预训练DDPM近似于反向过程
在这里插入图片描述
实际上,噪声预测网络 ϵ θ ( x t , t ) \epsilon_θ(x_t,t) ϵθ(xt,t)不是预测方程(3)中的分布平均值,而是预测步长t处的噪声分量;平均值是该噪声分量和xt的线性组合。协方差预测因子 ∑ θ ( x t , t ) ∑_θ(x_t,t) θ(xt,t)可以是标量协方差的固定集合,也可以是学习的(后者被证明可以提高模型质量(Nichol,2021))
去噪模型 ϵ θ ( x t , t ) \epsilon_θ(x_t,t) ϵθ(xt

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值