DatasetDM论文解读

论文名称:DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models

项目地址:https://weijiawu.github.io/DatasetDM_page/

摘要:

该模型基于预训练的扩散模型,并将文本引导图像合成扩展到感知数据生成领域。通过解码扩散模型的丰富潜在编码,可以有效地生成准确的感知注释。训练该解码器只需要少于1%(大约100张图像)的手动标注图像,从而实现无限大的注释数据集生成。生成的合成数据可用于训练各种感知模型进行下游任务。

核心功能:

  1. 生成多样化的合成图像:DatasetDM 利用 GPT-4等大型语言模型产生无限多样的引导语句,从而生成多样化的合成图像。
  2. 高质量感知注释生成:利用训练好的解码器模块,DatasetDM 能够将扩散模型的潜在编码准确解码为感知注释,如分割掩码、深度估计等。
  3. 多任务支持:DatasetDM 支持多个下游任务,包括语义分割、实例分割、人体姿态估计和深度估计等,为不同任务提供统一的数据生成和感知注释。
  4. 高效的数据集生成:通过使用合成数据,DatasetDM 大大减少了数据采集和标注的时间成本,能够快速生成大规模的高质量感知数据集。
  5. 强大的性能:DatasetDM 在语义分割和实例分割等任务上取得了最先进的结果,并且在领域泛化和零样本分割等方面表现出较强的鲁棒性和灵活性。
  6. 可扩展的应用:DatasetDM 可以灵活应用于图像编辑等新领域和任务,为用户提供更多的创造力和应用场景。

架构图:

在这里插入图片描述

方法论:

方法回顾:

我们知道SD可以具有优秀的文图生成能力,现在GPT也做得很好,GPT4可以说已经完全具有了完美的文本输出能力。那么,我们是否可以把这两个大模型用起来,一起做数据增广呢?而在计算机视觉中,其实也就那么几种常规的下游任务,分类,检测,分割,姿态估计等等。那么,作者的论文观点就来了。
建模思路:

训练阶段:

  1. 第一步,取少量数据,制作对应图片文本描述,范式是"a photo of a [cls] [cls]"。首先将图像根据相应的数学规则加噪,再通过Unet去噪,去噪过程中利用cross attention机制,输出fuse后的cross attention maps。同时呢,提取出Unet的4个多尺度特征图,分别为6464, 3232, 1616, 88。值得注意的是,这里的加噪和去噪过程都是冻结了权重的,不参与到训练过程。这俩特征maps提取过程被论文叫做Hypercolumn Representation Extraction。紧接着,拿到这俩特征图后,进行concat操作,然后通过1*1的卷积进行融合。如下方公式,左侧F,A就是这俩特征表示。
    在这里插入图片描述
    在这里插入图片描述

  2. 第二步,论文能够适应多任务的关键。论文设计了一个Perception Decoder(P-decoder),这个东西可以理解为一个多任务解码器(参考论文Mask2Former),我们可以根据不同的下游任务,设计对应的解码头。因此,当我拿到了刚刚的F^后,这玩意儿就会被作为输入,通过解码输出对应任务的下游输出,和标签一起做损失计算。以常规的图像分割为例,这里的输出就是mask图,因此损失函数也就是常规的交叉熵损失和dcie损失。

推理阶段:

  1. 推理是极其简单的,仅仅只是把文本输入换成GPT4生成的文本,而图像输入直接替换为随机高斯噪声,只取扩散模型的反向扩散过程即可。
  2. 那么,对应生成的图像还是由VAE进行解码获得图像,而图像内容取决与给定的GPT4生成文本内容。而此时的标签数据则就是通过F^这个特征进行P-decoder进行解码,而修改不同的解码头就可以获得不同的标签数据,也就是我们要人工进行制作的标注数据。

成本:

一张V100,少量标注数据,仅仅训练20小时,可以说成本真的很低很低了。

效果展示:

在这里插入图片描述

局限性:

  1. 生成图像质量和复杂性无法和真实数据相比。(这个可以通过标注大量场景数据进行解决,也就是让SD多见一些)
  2. SD的生成能力的局限性,可以尝试SDXL,Deepfloyd IF这种更厉害的模型。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yez1011

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值