ICLR 2022 | 基于扩散模型(DDPM)的语义分割

最新推荐文章于 2025-04-14 00:10:30 发布

Amusi（CVer）

最新推荐文章于 2025-04-14 00:10:30 发布

阅读量7.7k

点赞数 6

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247564942&idx=3&sn=1b647fb45bddedc76d075ae8bbbcb1e7&chksm=f9a08c01ced70517bbc256c631e6f17f32a288968f3c3702f81b9037d699691b1d3a488eba47&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CV 微信技术交流群

转载自：咚咚学AI

论文标题：LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS

论文地址：https://arxiv.org/abs/2112.03126.

论文代码：https://github.com/yandex-research/ddpm-segmentation

摘要

背景介绍：去噪扩散概率模型DDPM最近受到了很多研究关注，因为它们优于其他方法，如GAN，并且目前提供了最先进的生成性能。差分融合模型的优异性能使其在修复、超分辨率和语义编辑等应用中成为一个很有吸引力的工具。
研究方法：作者为了证明扩散模型也可以作为语义分割的工具，特别是在标记数据稀缺的情况下。对于几个预先训练的扩散模型，作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。结果表明这些激活有效地从输入图像中捕获语义信息，并且似乎是分割问题的出色像素级表示。基于这些观察结果，作者描述了一种简单的分割方法，即使只提供了少量的训练图像也可以使用。
实验结果：提出的算法在多个数据集上显著优于现有的替代方法。

算法

首先，简要概述DDPM框架。然后，我们描述了如何使用DDPM提取特征，并研究这些特征可能捕获的语义信息。

背景： 扩散模型逐渐降低噪声从到来吧噪声∼N（0，I）传递给数据样本，从而得到了一个正向扩散过程：

重要的是，噪声样本可以直接从数据中获得的：

预训练DDPM近似于一个反向过程：

实际上，噪声预测网络不是预测方程（3）中分布的平均值，而是预测步骤t处的噪声分量；然后，平均值是该噪声分量与的线性组合。协方差预测器θ（，）可以是固定的标量协方差集，也可以是学习的（后者被证明可以提高模型质量（Nichol，2021））。

特征提取： 对于给定的真实图像，可以从噪声预测网络计算激活张量的集合T。一个时间步长t的总体方案如图1所示。

首先，通过根据方程（2）添加高斯噪声来破坏。噪声作为由UNet模型参数化的θ（xt，t）的输入。然后使用双线性插值将UNet的中间激活上采样到H×W。

表征分析

作者分析了噪声预测器θ（xt，t）对不同 t 产生的表示。考虑了在LSUN Horse和FFHQ-256数据集上训练的最先进的DDPM checkpoints。

来自噪声预测器的中间激活捕获语义信息：对于这个实验，从LSUN Horse和FFHQ数据集中获取了一些图像，并分别手动将每个像素分配给21和34个语义类中的一个。目标是了解DDPM生成的像素级表示是否有效地捕获了有关语义的信息。为此，训练多层感知器（MLP），以根据特定扩散步骤t上18个UNet解码器块中的一个生成的特征来预测像素语义标签。请注意，只考虑解码器激活图，因为它们还通过跳跃连接聚合编码器激活图。MLP在20张图片上接受训练，并在20张图片上进行评估。预测性能以平均IoU衡量。

图2显示了不同解码块和扩散步骤t的预测性能演变。解码块从深到浅依次编号。图2显示了噪声预测器θ（xt，t）产生特征的IoU随不同的块和扩散步骤而变化。特别是，对应于反向扩散过程后续步骤的特征通常更有效地捕获语义信息。相比之下，早期步骤相对应的特征通常没有什么信息。在不同的解码块中，UNet解码器中间层产生的特征似乎是所有扩散步骤中信息最丰富的。

此外，根据标注数据集中的目标的平均面积分别考虑小型和大型语义类。然后，独立评估不同UNet解码块和扩散步骤中这些类的平均IoU。LSUN Horse的结果如图3所示。正如预期的那样，在相反的过程中，大型对象的预测性能开始提前增长。对于较小的对象，浅层解码块的信息量更大，而对于较大的对象，深层解码块的信息更大。在这两种情况下，最有区别的特征仍然对应于中间块。

图4显示了由FFHQ checkpoint从扩散步骤{50，200，400，600，800}的解码块{6,8,10,12}中提取的特征形成的k-means聚类（k=5），并确认聚类可以跨越连贯的语义对象和对象部分。在块B=6中，特征对应于粗糙的语义掩码。在另一个极端，B=12的特征可以区分细粒度的面部部位，但对于粗碎片来说，语义意义较小。在不同的扩散步骤中，最有意义的特征对应于后面的步骤。

将这种行为归因于这样一个事实，即在反向过程的早期步骤中，DDPM样本的全局结构尚未出现，因此，在这个阶段几乎不可能预测分段掩码。图4中的掩码定性地证实了这种直觉。对于t=800，掩码很难反映实际图像的内容，而对于较小的t值，掩码和图像在语义上是一致的。

基于DDPM的few-shot语义分割

上述观察到的中间DDPM激活的潜在有效性表明，它们可以被用作密集预测任务的图像表示。图1展示了整体图像分割方法，该方法利用了这些代表的可辨别性。更详细地说，当存在大量未标记图像{X1，…，XN}⊂时，考虑了few-shot半监督设置。

第一步，以无监督的方式对整个{X1，…，XN}训练扩散模型。然后使用该扩散模型提取标记图像的像素级表示。在本工作中，使用UNet解码器中间块B={5,6,7,8,12}的表示，以及反向扩散过程的步骤t={50，150，250}。

实验

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

图像分割交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-图像分割 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看