DatasetDM论文解读

Yez1011

已于 2023-08-31 19:54:35 修改

阅读量390

点赞数 1

分类专栏： AIGC 文章标签： AIGC 计算机视觉

于 2023-08-31 16:55:05 首次发布

本文链接：https://blog.csdn.net/Zhangye1011/article/details/132364328

版权

3 篇文章 2 订阅

订阅专栏

论文名称：DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models

该模型基于预训练的扩散模型，并将文本引导图像合成扩展到感知数据生成领域。通过解码扩散模型的丰富潜在编码，可以有效地生成准确的感知注释。训练该解码器只需要少于1%（大约100张图像）的手动标注图像，从而实现无限大的注释数据集生成。生成的合成数据可用于训练各种感知模型进行下游任务。

在这里插入图片描述

我们知道SD可以具有优秀的文图生成能力，现在GPT也做得很好，GPT4可以说已经完全具有了完美的文本输出能力。那么，我们是否可以把这两个大模型用起来，一起做数据增广呢？而在计算机视觉中，其实也就那么几种常规的下游任务，分类，检测，分割，姿态估计等等。那么，作者的论文观点就来了。
建模思路：

第一步，取少量数据，制作对应图片文本描述，范式是"a photo of a [cls] [cls]"。首先将图像根据相应的数学规则加噪，再通过Unet去噪，去噪过程中利用cross attention机制，输出fuse后的cross attention maps。同时呢，提取出Unet的4个多尺度特征图，分别为6464， 3232， 1616， 88。值得注意的是，这里的加噪和去噪过程都是冻结了权重的，不参与到训练过程。这俩特征maps提取过程被论文叫做Hypercolumn Representation Extraction。紧接着，拿到这俩特征图后，进行concat操作，然后通过1*1的卷积进行融合。如下方公式，左侧F，A就是这俩特征表示。
第二步，论文能够适应多任务的关键。论文设计了一个Perception Decoder（P-decoder），这个东西可以理解为一个多任务解码器（参考论文Mask2Former），我们可以根据不同的下游任务，设计对应的解码头。因此，当我拿到了刚刚的F^后，这玩意儿就会被作为输入，通过解码输出对应任务的下游输出，和标签一起做损失计算。以常规的图像分割为例，这里的输出就是mask图，因此损失函数也就是常规的交叉熵损失和dcie损失。

推理是极其简单的，仅仅只是把文本输入换成GPT4生成的文本，而图像输入直接替换为随机高斯噪声，只取扩散模型的反向扩散过程即可。
那么，对应生成的图像还是由VAE进行解码获得图像，而图像内容取决与给定的GPT4生成文本内容。而此时的标签数据则就是通过F^这个特征进行P-decoder进行解码，而修改不同的解码头就可以获得不同的标签数据，也就是我们要人工进行制作的标注数据。

一张V100，少量标注数据，仅仅训练20小时，可以说成本真的很低很低了。

在这里插入图片描述

关注