【论文阅读】基于扩散模型的标签高效语义分割
去噪扩散概率模型最近受到了很多研究的关注,因为它们优于GAN等替代方法,并且目前提供了最先进的生成性能
扩散模型的应用:
- 绘图
- 超分辨率
- 语义编辑
扩散模型也可以作为语义分割的工具,特别是在标记数据稀缺的情况下
对于几个预训练的扩散模型,执行反向扩散过程的马尔可夫步骤的网络的中间激活
这些激活有效地从输入图像中捕获语义信息,并且似乎是分割问题的优秀像素级表示
即使只提供少量训练图像也可以工作
一、介绍
去噪扩散概率模型(DDPM) (Sohl-Dickstein等,2015;Ho等人,2020)
个体样本的真实性及其多样性方面优于其他方法来模拟自然图像的分布(Dhariwal和Nichol, 2021)
DDPM是否也可以作为表示学习器。我们从语义分割的角度来进行相应探究。
我们研究了来自U-Net网络的中间激活,该网络近似于DDPM中反向扩散过程的马尔可夫步长
鉴于这些观察结果,我们提出了一种简单的语义分割方法,该方法利用这些表示并成功地工作,即使只提供了少数标记图像
相应贡献
- 研究了最先进的DDPM学习的表示,并表明它们捕获了对下游视觉任务有价值的高级语义信息
- 设计了一种简单的语义分割方法,利用这些表示,并在少数几个操作点上优于替代方法
- 相同的数据集上比较了基于ddpm的表示和基于gan的表示,并展示了前者在语义分割方面的优势
二、联系工作
扩散模型(sol - dickstein et al., 2015;Ho等人,2020)是一类生成模型
扩散模型包括两个过程:
- 前向过程(forward process)
- 反向过程(reverse process)
无论是前向过程还是反向过程都是一个参数化的马尔可夫链(Markov chain)
Ho等人强调了扩散模型和分数匹配的等价性(Song & Ermon, 2019;2020),表明它们是通过迭代去噪过程将简单已知分布逐渐转换为目标分布的两种不同视角
判别任务的生成模型表示。作为表征学习器,生成模型的使用已被广泛研究用于全局预测
但与其他无监督方法(例如,基于对比学习的Chen等人,2020b)相比,生成模型作为表示学习器受到的关注较少。主要原因可能是在复杂多样的数据集上训练高质量的生成模型很困难
三、具体方法
论文目的:
- 研究通过扩散模型学习的图像表示
- 提供DDPM框架的简要概述
- 研究特征捕获语义信息
扩散模型的正向扩散过程
整体网络框架
方法概述:
- 0→xt,按 q ( x t ∣ x 0 ) q(xt|x0) q(xt∣x0)加噪声
- 噪声预测器 θ ( x t , t ) θ(xt, t) θ(xt,t)中提取特征映射
- 特征映射上采样到图像分辨率并将它们连接起来,收集像素级表示
- 使用逐像素特征向量训练mlp集合来预测每个像素的类标签
扩散模型的作用就是
直接从数据x0中得到一个带噪声的样本xt
输入:x0原图像
中间:添加高斯噪声来破坏x0,得xt
提取特征:Unet编码
还原:双线性插值将UNet的中间激活上采样到H × W。这允许将它们视为x0的像素级表示
我们分析了噪声预测器θ(xt, t)对不同t产生的表示。我们考虑了在LSUN-Horse和FFHQ-256数据集上训练的最先进的DDPM检查点
从自噪声预测器的中间激活捕获语义信息
目标是了解DDPM生成的像素级表示是否有效地捕获了关于语义的信息
只考虑解码器激活,通过跳过连接聚合编码器激活。
预测性能在不同区块和扩散步骤t上的演变
特别是,与反向扩散过程的后期步骤相对应的特征通常更有效地捕获语义信息
如预期的那样,大型对象的预测性能在相反的过程中开始增长得更早
中间块的聚类在空间上跨越连贯的语义对象和部分
四、实验结果
基于ddpm的表示在语义分割问题上的优势
数据集采用
- LSUN
- FFHQ-256
对于不同的数据分割,结果在5次独立运行中取平均值。
用DDPM生成的数据进行训练时,DDPM显示出与DatasetDDPM相当的性能