CV每日论文--2024.5.13_distilling diffusion models into conditional gans-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/138836765

1、Distilling Diffusion Models into Conditional GANs

中文标题：将扩散模型提炼为条件 GAN

简介：我们提出了一种方法，通过将复杂的多步扩散模型精简为单步条件GAN学生模型，从而在保持图像质量的同时大大加快推理过程。我们的方法将扩散提炼视为一种成对图像到图像转换任务，利用扩散模型的ODE轨迹中的噪声到图像的映射。为了高效计算回归损失，我们引入了E-LatentLPIPS，一种在扩散模型的潜在空间中直接运行的感知损失函数，利用增强集合。此外，我们改进了扩散模型，构建了一个多尺度鉴别器，并引入了文本对齐损失，以构建一个高效的条件GAN模型。即使考虑到数据集构建成本，相对于许多现有的提炼方法，E-LatentLPIPS的收敛速度更快。我们证明了我们的单步生成器在零样本COCO基准测试中优于最先进的单步扩散提炼模型-DMD、SDXL-Turbo和SDXL-Lightning。

2、 Frame Interpolation with Consecutive Brownian Bridge Diffusion

中文标题：具有连续布朗桥扩散的帧插值

简介：最近的视频帧插值（VFI）研究旨在将VFI定义为基于扩散的条件图像生成问题，即合成给定随机噪声和相邻帧之间的中间帧。由于视频具有相对较高的分辨率，我们采用潜在扩散模型（LDM）作为条件生成模型，其中自编码器将图像压缩为潜在表示进行扩散，然后再从这些潜在表示中重构图像。这种定义方式带来了一个关键的挑战：VFI要求输出的中间帧与真实中间帧保持确定性一致，然而当模型多次运行时，LDM会随机生成不同的图像集。多样化生成的原因在于LDM中生成的潜在表示的累积方差（在每个生成步骤中累积的方差）很大。这导致采样轨迹是随机的，从而生成结果呈现多样性而非确定性。为了解决这个问题，我们提出了一种独特的解决方案：连续布朗桥扩散的帧插值。具体而言，我们引入了连续布朗桥扩散方法，并以确定性初始值作为输入，从而生成的潜在表示的累积方差要小得多。我们的实验结果表明，随着自编码器的改进，我们的方法不断提高，并在VFI领域实现了最先进的性能，展现出进一步增强的巨大潜力。

3、Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

中文标题：Lumina-T2X：通过基于流的大型扩散变压器将文本转换为任何形态、分辨率和持续时间

简介：Sora的研究揭示了扩展Diffusion Transformer在生成逼真图像和视频方面的潜力，但缺乏足够的实现细节。在本技术报告中，我们介绍了Lumina-T2X系列，这是一系列基于流的大型Diffusion Transformer（Flag-DiT），配备了零初始化注意力。作为一个统一的框架，Lumina-T2X旨在将噪声转化为图像、视频、多视角3D对象和文本指令条件下的音频片段。通过对潜在的时空空间进行标记化，并结合可学习的占位符，如[nextline]和[nextframe]标记，Lumina-T2X在各种时空分辨率下无缝地统一了不同模态的表示。这种统一的方法使得可以在单个框架内训练不同模态，并且允许以任意分辨率、长宽比和长度生成多模态数据。通过采用RoPE、RMSNorm和流匹配等高级技术，Flag-DiT的稳定性、灵活性和可扩展性得到了增强，使得Lumina-T2X模型可以扩展到70亿个参数，并将上下文窗口扩展到128K个标记。这对于使用我们的Lumina-T2I模型创建超高清图像以及使用我们的Lumina-T2V模型创建720p长视频尤为有益。值得注意的是，基于50亿个参数的Flag-DiT驱动的Lumina-T2I模型只需要naive DiT模型训练计算成本的35％（仅为600万个参数）。我们进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面的初步能力。我们期望通过开源Lumina-T2X，进一步促进生成AI社区的创造力、透明度和多样性。