【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

文章介绍了一种名为WÜRSTCHEN的新型文本到图像生成模型,通过分阶段训练和压缩潜在空间,显著降低了训练成本和推理速度,同时保持了高质量图像生成。与现有模型相比,如SD1.4和2.1,WÜRSTCHEN在性能和计算资源使用上更具优势。
摘要由CSDN通过智能技术生成

WURSTCHEN:用于大规模文本到图像扩散模型的高效架构

这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性

整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省成本主要是在说C阶段?那A和B呢;256的潜在空间训练,不应该比SD在64的潜在空间训练更加成本高昂吗?看hf的权重大小,STAGE-A 296M,STAGE-B 3.4G, STAGE-C 3.97G好像和SD2.1的也差不多

更新1:附录D提到**“在我们的工作中,我们将阶段 C 视为模型的主要工作部分,当涉及到从文本中生成图像时”**。
更新2:一定要看附录D!

  1. Würstchen是一种通过将计算成本高昂的文本条件阶段移动到高度压缩的潜在空间来训练文本条件模型的新框架。常见的方法使用单级压缩,而Würstchen引入了另一个引入更多压缩的阶段。

  2. 框架包含负责压缩图像的阶段A和B,以及在低维潜在空间中学习文本条件部分的阶段C。

  3. Würstchen实现了42倍的压缩因子,同时仍然忠实地重建图像。这使得阶段C的训练能够快速且计算成本低廉。

paper:https://arxiv.org/abs/2306.00637
code:https://github.com/dome272/wuerstchen
publication:ICLR 2024 Oral

在这里插入图片描述

摘要

开发了一种潜在的扩散技术,其中我们学习了一个用于指导扩散过程的详细但极其紧凑的语义图像表示
与语言的潜在表示相比,图像的这种高度压缩的表示提供了更详细的指导,这显着减少了实现最先进结果的计算要求。(直观上理解就是文本的表示和图像的表示tokens一起作为条件引导图像生成)
基于用户偏好研究提高了文本条件图像生成的质量。
与稳定扩散 2.1 的 200,000 GPU 小时相比,我们方法的训练需求由 24,602 A100-GPU 小时组成。我们的方法还需要较少的训练数据来实现这些结果。(C阶段的时间,文本条件和图像条件的转换?)
此外,我们紧凑的潜在表示允许我们对最先进的 (SOTA) 扩散模型的通常成本和碳足迹进行两次推断,而不会损害最终性能
与 SOTA 模型更广泛的比较中,我们的方法更有效,并且在图像质量方面表现出色。我们相信这项工作更强调性能和计算可访问性的优先级。

贡献

  1. 我们提出了一种新的三阶段结构,用于强压缩比的文本图像合成,由两个条件潜在扩散阶段和一个潜在图像解码器组成。
  2. 我们表明,通过在强压缩的潜在空间中使用文本条件扩散模型,我们可以在显着降低的训练成本和推理速度的情况下实现最先进的性能。
  3. 我们提供了基于自动化指标和人工反馈的模型功效的综合实验验证。
  4. 我们公开发布源代码和整套模型权重。

方法

训练

**Stage A:**最初,训练一个 VQGAN。
**StageB:**阶段 B 被训练为阶段 A 的潜在空间内的扩散模型。阶段 B 以文本嵌入和语义压缩器的输出为条件,它产生同一图像的强烈下采样的潜在表示。
**StageC:**阶段 C 在语义压缩器作为文本条件 LDM 的潜在表示上进行训练,有效地以 42 : 1 的压缩比运行。(只有这个阶段需要重头训练)
在这里插入图片描述

推理

  1. 使用文本条件 LDM(阶段 C)以强压缩比生成潜在图像。(Text conditioning is applied on Stage C using CLIP-H )
  2. 这种表示通过负责这种重建的次要模型转换为压缩较少的潜在空间(阶段 B)。
  3. 对该中间分辨率中包含潜在图像的标记被解码以产生输出图像(阶段 A)。
    在这里插入图片描述

实验

在这里插入图片描述
表 2 显示了与原始 SD 1.4 和 2.1 相比训练 W ̈urstchen 的计算成本。基于 4.1 节中的评估,可以看出所提出的将高分辨率图像投影与实际文本条件生成的解耦设置可以更多地利用,同时仍然保持相当或优于质量、保真度和对齐。与 SD 2.1 的 200,000 个 GPU 小时相比,阶段 C 是从头开始训练的最昂贵的阶段,只需要 24,602 个 GPU 小时,使其成为 8 倍的改进。此外,SD 1.4 和 2.1 处理的图像样本明显更多。后一个指标基于所有训练和微调的步骤总数,并与各自的批量大小相乘。即使考虑到用于训练阶段 B 的 11,000 个 GPU 小时和 318M 训练样本,W ̈urstchen 也比 SD 模型更有效地训练。此外,虽然需要同时使用阶段 A 和 B 进行采样来生成 VQGAN 潜在 ̄xq ,但总推理仍然比 SD 2.1 和 XL 快得多(见图 4)。
在这里插入图片描述
使用 PickScore (Kirstain et al., 2023) 评估 MS-COCO 和本地化叙事 (Pont-Tuset et al., 2020) 上的图像质量,通过两个不同的模型从同一字幕生成的图像。Ẅurstchen 优于所有大小相等的模型,尽管使用明显更高计算预算的稳定扩散模型。
在这里插入图片描述

结论

在这项工作中,提出了我们的文本条件图像生成模型 Ẅurstchen,该模型采用了三个阶段的过程,将文本条件图像生成与高分辨率空间解耦。该过程能够有效地训练大规模模型,大大减少计算需求,同时提供高保真图像。我们训练的模型实现了与使用更多计算资源训练的模型相当的性能,说明了这种方法的可行性,并提出了对更大模型参数的潜在有效可扩展性。我们希望我们的工作可以作为进一步研究生成 AI 的更可持续和计算效率更高的领域的起点,并为消费者硬件上的训练、微调和部署大规模模型开辟了更多可能性。

附录

附录A

一些额外可视化

附录B

FID评价指标:尽管在imagenet数据集上训练,但能够泛化到其他数据集;并给出了一些常见操作对FID的影响
在这里插入图片描述

附录C

关于用户研究指标的设置描述

附录D

解决了疑问:

  1. 在我们的工作中,我们将阶段 C 视为模型的主要工作部分,当涉及到从文本中生成图像时。
  2. 简要讨论阶段 B 和阶段 C 如何共享图像生成的工作量。通过这样做,我们证明了阶段 C 负责图像的内容,而阶段 B 充当细化模型,添加细节并提高分辨率,但最终不会以语义上有意义的方式更改图像
    1. 为了研究,我们训练了一个小(3.9M 参数)解码器来从阶段 C 产生的潜伏期重建图像,并将重建与以阶段 C 为条件的阶段 B 的重建进行了比较。图 17, 18, 19 和 20 中的结果表明,阶段 C 生成的图像与阶段 B 和 C 组合生成的图像非常相似。
    2. 由此我们得出结论,阶段 C 是将文本转换为图像时的主要因素。这进一步得到了以下事实的支持:在替代训练机制上进行的简短实验表明,阶段 B 的文本调节并不能提高图像的质量,并且可以在未来几代中丢弃我们的模型

在这里插入图片描述

附录E

关于网络架构的详细描述

  • 31
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
InteractDiffusion是一种基于对话控制的图像生成模型,其目的是通过对话控制图像的生成过程,来实现用户需求的精确控制。根据官方论文的描述,在这种模型中,生成器和对话控制模型相互作用,以生成更具语义一致性和可解释性的图像。 具体而言,InteractDiffusion模型将对话控制器嵌入到对抗式训练过程中,其目的是在条件生成图像的同时,同时生成与用户对话相对应的图像。这种方法可以用于生成带有特定属性的图像,例如特定的物体或场景。通过对话控制模型,用户可以控制生成器,以生成满足他们的需求的图像。 下面是这篇论文提出的InteractDiffusion模型的核心组件: - 明确对话建模:InteractDiffusion模型将对话控制器嵌入到生成图像的过程中,使得生成器可以通过对话控制器接受条件生成的输入和上下文,并生成与之相应的图像。这种对话建模的方法可以在不增加额外复杂度的情况下,提高模型生成图像时的语义一致性和可解释性。 - 双向条件生成:InteractDiffusion模型采用双向条件生成的方法,即通过对话控制器,生成器可以根据用户对输入和上下文的要求生成对应的图像,并且也可以根据生成的图像,生成相应的对话输出结果。这种方法使得模型在生成图像时能够有更好的灵活性和可控性。 - 对抗式训练:InteractDiffusion模型采用对抗式训练的方法,即结合生成器和判别器进行训练。在对抗式训练中,生成器的目标是生成逼真的图像,而判别器的目标是辨别生成器生成的图像和真实图像的区别。这种对抗式的学习方式可以使得生成器更加准确地生成逼真的图像,同时提高模型的鲁棒性和泛化能力。 请问你还有什么其他问题吗?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值