CV每日论文--2024.5.13

1、Distilling Diffusion Models into Conditional GANs

中文标题:将扩散模型提炼为条件 GAN

简介:我们提出了一种方法,通过将复杂的多步扩散模型精简为单步条件GAN学生模型,从而在保持图像质量的同时大大加快推理过程。我们的方法将扩散提炼视为一种成对图像到图像转换任务,利用扩散模型的ODE轨迹中的噪声到图像的映射。为了高效计算回归损失,我们引入了E-LatentLPIPS,一种在扩散模型的潜在空间中直接运行的感知损失函数,利用增强集合。此外,我们改进了扩散模型,构建了一个多尺度鉴别器,并引入了文本对齐损失,以构建一个高效的条件GAN模型。即使考虑到数据集构建成本,相对于许多现有的提炼方法,E-LatentLPIPS的收敛速度更快。我们证明了我们的单步生成器在零样本COCO基准测试中优于最先进的单步扩散提炼模型-DMD、SDXL-Turbo和SDXL-Lightning。

2、 Frame Interpolation with Consecutive Brownian Bridge Diffusion

中文标题:具有连续布朗桥扩散的帧插值

简介:最近的视频帧插值(VFI)研究旨在将VFI定义为基于扩散的条件图像生成问题,即合成给定随机噪声和相邻帧之间的中间帧。由于视频具有相对较高的分辨率,我们采用潜在扩散模型(LDM)作为条件生成模型,其中自编码器将图像压缩为潜在表示进行扩散,然后再从这些潜在表示中重构图像。这种定义方式带来了一个关键的挑战:VFI要求输出的中间帧与真实中间帧保持确定性一致,然而当模型多次运行时,LDM会随机生成不同的图像集。多样化生成的原因在于LDM中生成的潜在表示的累积方差(在每个生成步骤中累积的方差)很大。这导致采样轨迹是随机的,从而生成结果呈现多样性而非确定性。为了解决这个问题,我们提出了一种独特的解决方案:连续布朗桥扩散的帧插值。具体而言,我们引入了连续布朗桥扩散方法,并以确定性初始值作为输入,从而生成的潜在表示的累积方差要小得多。我们的实验结果表明,随着自编码器的改进,我们的方法不断提高,并在VFI领域实现了最先进的性能,展现出进一步增强的巨大潜力。

3、Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

中文标题:Lumina-T2X:通过基于流的大型扩散变压器将文本转换为任何形态、分辨率和持续时间

简介:Sora的研究揭示了扩展Diffusion Transformer在生成逼真图像和视频方面的潜力,但缺乏足够的实现细节。在本技术报告中,我们介绍了Lumina-T2X系列,这是一系列基于流的大型Diffusion Transformer(Flag-DiT),配备了零初始化注意力。作为一个统一的框架,Lumina-T2X旨在将噪声转化为图像、视频、多视角3D对象和文本指令条件下的音频片段。通过对潜在的时空空间进行标记化,并结合可学习的占位符,如[nextline]和[nextframe]标记,Lumina-T2X在各种时空分辨率下无缝地统一了不同模态的表示。这种统一的方法使得可以在单个框架内训练不同模态,并且允许以任意分辨率、长宽比和长度生成多模态数据。通过采用RoPE、RMSNorm和流匹配等高级技术,Flag-DiT的稳定性、灵活性和可扩展性得到了增强,使得Lumina-T2X模型可以扩展到70亿个参数,并将上下文窗口扩展到128K个标记。这对于使用我们的Lumina-T2I模型创建超高清图像以及使用我们的Lumina-T2V模型创建720p长视频尤为有益。值得注意的是,基于50亿个参数的Flag-DiT驱动的Lumina-T2I模型只需要naive DiT模型训练计算成本的35%(仅为600万个参数)。我们进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面的初步能力。我们期望通过开源Lumina-T2X,进一步促进生成AI社区的创造力、透明度和多样性。

  • 19
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值