CVPR2024 Diffusion Model

CVPR2024 Diffusion Model list

在这里插入图片描述

https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers

文章目录

1. AT-EDM: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models AT-EDM:扩散模型的注意驱动无训练效率增强

paper&code

扩散模型(DMs)在生成高质量和多样化的图像方面表现出优异的性能。然而,这种卓越的性能是以昂贵的架构设计为代价的,特别是在主要模型中大量使用的注意力模块。现有的工作主要采用再培训过程来提高效率,这种方法计算成本高,可扩展性差。
为此,我们引入了注意力驱动的无训练有效扩散模型(AT-EDM),该框架利用注意力映射在推理过程中执行冗余令牌的运行时修剪,而无需重新训练。
具体来说,我们开发了一种单步去噪修剪策略,即广义加权页面秩(G-WPR),用于识别冗余标记和基于相似性的恢复方法,用于恢复卷积操作的标记。此外,提出了基于去噪步骤感知的剪枝算法(DSAP),在不同的去噪时间步间调整剪枝预算,以获得更好的生成质量。

2. RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models RAVE:用扩散模型进行快速且一致的视频编辑时的随机噪声打乱技术

paper&code

基于扩散的模型的最新进展在从文本生成图像方面取得了重大成功。然而,视频编辑模式在视觉质量和用户控制方面还没有达到同样的水平。为了解决这个问题,我们介绍了RAVE,这是一种零镜头视频编辑方法,它利用预先训练的文本到图像扩散模型,而无需额外的训练。RAVE采用输入视频和文本提示来制作高质量的视频,同时保留原始的运动和语义结构。它采用了一种新颖的噪声变换策略,利用帧之间的时空相互作用,比现有方法更快地产生时间一致的视频。在内存需求方面,它也很高效,允许它处理更长的视频。RAVE能够进行广泛的编辑,从局部属性修改到形状转换。为了展示RAVE的多功能性,我们创建了一个全面的视频评估数据集,从以对象为中心的场景到复杂的人类活动,如跳舞和打字,以及以游动的鱼和船为特征的动态场景。与现有方法相比,我们的定性和定量实验突出了RAVE在不同视频编辑场景中的有效性。

3. In-distribution Public Data Synthesis with Diffusion Models for Differentially Private Image Classification基于扩散模型的分布内公共数据综合差分私有图像分类

paper

为了缓解差分隐私(DP)深度学习图像分类中使用额外公共数据或预训练模型的效用退化问题,人们进行了广泛的探索。最近,人们对分布内公共数据的使用进行了调查,其中一小部分数据集被公开发布。在本文中,我们研究了一个利用最新扩散模型来放大公共数据信息的框架。随后,我们确定了公共数据和私人数据之间的数据多样性和泛化差距是解决有限公共数据的关键因素。假设4%的训练数据是公开的,我们的方法在CIFAR-10上达到85.48%,隐私预算为ε=2,而不使用额外的公共数据进行训练。

4. Image Neural Field Diffusion Models 图像神经场扩散模型

paper&code

扩散模型已经显示出对复杂数据分布建模的令人印象深刻的能力,与gan相比具有几个关键优势,例如稳定的训练,更好地覆盖训练分布的模式,以及无需额外训练即可解决逆问题的能力。然而,大多数扩散模型学习固定分辨率图像的分布。我们提出通过在图像神经场上训练可以在任意分辨率下渲染的扩散模型来学习连续图像的分布,并显示其相对于固定分辨率模型的优势。为了实现这一目标,一个关键的挑战是获得代表逼真图像神经场的潜在空间。我们提出了一种简单而有效的方法,该方法受到了几种最新技术的启发,但进行了关键的修改,使图像神经场具有真实感。该方法可用于将现有的隐扩散自编码器转换为图像神经场自编码器。研究表明,图像神经场扩散模型可以使用混合分辨率图像数据集进行训练,优于固定分辨率扩散模型,然后是超分辨率模型,并且可以有效地解决不同尺度条件下的逆问题。

5. Diffusion Handles: Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D 扩散处理:通过提升激活到3D,为扩散模型启用3D编辑

paper&code

扩散处理是一种新颖的方法,可以对扩散图像进行3D对象编辑。我们使用现有的预训练扩散模型和2D图像深度估计完成这些编辑,而无需任何微调或3D对象检索。编辑后的结果仍然可信,照片真实,并保持对象的身份。
扩散处理解决了基于创意设计的生成图像的一个关键缺失的方面,并显着推进了生成图像编辑的最新技术。我们的关键见解是使用代理深度将物体的扩散激活提升到3D, 3D转换深度和相关激活,并将它们投影回图像空间。扩散过程应用于具有身份控制的操纵激活,产生可信的编辑图像,显示复杂的3D遮挡和照明效果。

6. Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance基于迭代预条件制导的去噪扩散模型图像恢复

paper&code

训练深度神经网络已经成为一种常见的方法解决图像恢复问题的方法。一个可选择的训练“特定任务”的网络为每个观测模型是使用预训练的深度去噪器在迭代算法中只施加信号的先验,不需要额外的训练。最近,以抽样为基础这种方法的变体也随着兴起而流行起来基于扩散/分数的生成模型。使用去噪一般的修复需要引导它确保信号与观测一致的操作规划设计。在低噪音环境下,基于背部的引导投影(BP)已被证明是一种有前途的策略(最近也被称为“伪逆”或“范围/空”制导)。然而,这种存在观测中的噪声阻碍了该ap的增益友善。本文提出了一种新的制导技术Nique,基于预处理,允许从
从基于bp的指导到基于最小二乘的指导恢复方案。所提出的方法具有鲁棒性
噪声,但仍然具有比替代方法(例如,它不需要SVD或一个大的迭代次数)。我们在两个优化中都使用它方案和基于抽样的方案,并对其进行了论证相对于现有图像去模糊方法的优点超分辨率。

7. Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models 平滑扩散:在扩散模型中制作平滑的潜在空间

paper&code

近年来,扩散模型在文本到图像(T2I)生成、高保真度和多样化内容的图像合成等方面取得了显著进展。尽管取得了这一进展,但扩散模型中的潜在空间平滑性在很大程度上仍未得到探索。平滑潜空间确保输入潜上的扰动对应于输出图像的稳定变化。这一特性在后续任务中被证明是有益的,包括图像插值、反演和编辑。在这项工作中,我们通过观察微小潜在变化引起的明显视觉波动,揭示了扩散潜在空间的非平滑性。为了解决这个问题,我们提出了平滑扩散,这是一种新的扩散模型,可以同时具有高性能和平滑性。具体来说,我们引入了逐步变化正则化,以强制任意输入潜函数的变化与输出图像的变化之间的比例在任何扩散训练步骤中都是恒定的。此外,我们设计了一个插值标准偏差(ISTD)度量来有效地评估扩散模型的潜在空间平滑性。大量的定量和定性实验表明,平滑扩散不仅在T2I代中,而且在各种下游任务中都是更理想的解决方案。

8. Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models 扩散模型中时间区间端点的奇异性处理

paper&code

大多数扩散模型假设反向过程遵循高斯分布。然而,这种近似还没有得到严格的验证,特别是在奇点处,t=0和t=1。对这种奇点处理不当会导致应用中的平均亮度问题,并限制了极端亮度或黑暗图像的生成。我们主要从理论和实践两个角度来解决奇点。首先,我们建立了反向过程近似的误差范围,并展示了其在奇异时间步长的高斯特性。基于这一理论见解,我们确认了t=1时的奇点是有条件可移除的,而t=0时的奇点是固有属性。基于这些重要的结论,我们提出了一种新颖的即插即用方法SingDiffusion来解决初始奇异时间步长采样问题,该方法不仅有效地解决了大范围扩散模型的平均亮度问题,而且无需额外的训练,还增强了它们的生成能力,实现了显著较低的FID分数。

9. TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models 基于图像噪声先验的图像到视频扩散模型的时间残差学习

paper&code

文本到视频生成的最新进展证明了强大的扩散模型的实用性。然而,在塑造扩散模型以对静态图像进行动画处理(即图像到视频生成)时,这个问题并非微不足道。困难在于后续动画帧的扩散过程不仅要保持与给定图像的忠实对齐,还要追求相邻帧之间的时间连贯性。为了缓解这种情况,我们提出了TRIP,这是一种图像到视频扩散范式的新配方,它以从静态图像派生的图像噪声为中心,共同触发帧间关系推理,并通过时间残差学习简化连贯的时间建模。 从技术上讲,图像噪声先验首先通过基于静态图像和噪声视频潜伏码的一步向后扩散过程获得。接下来,TRIP执行类似残差的双路径方案进行噪声预测:1)直接将图像噪声作为每帧的参考噪声的快捷路径,以放大第一帧与后续帧之间的对齐;2)残余路径,在噪声视频和静态图像潜在代码上使用3D-UNet来实现帧间关系推理,从而简化对每帧残余噪声的学习。此外,每帧的参考噪声和残余噪声都通过注意力机制动态合并,以生成最终的视频。 在WebVid-10M、DTDB和MSR-VTT数据集上的大量实验证明了我们的TRIP在图像到视频生成方面的有效性。

10. SingularTrajectory: Universal Trajectory Predictor Using Diffusion Model 奇异轨迹:使用扩散模型的通用轨迹预测器

paper&code

轨迹预测任务有五种类型:确定性、随机、域适应、瞬时观测和小样本。这些相关任务由各种因素定义,例如输入路径的长度、数据拆分和预处理方法。有趣的是,尽管它们通常将观测的顺序坐标作为输入,并在与输出相同的坐标中推断未来的路径,但仍然需要为每个任务设计专门的架构。对于另一项任务,通用性问题可能会导致性能欠佳。在本文中,我们提出了SingularTrajectory,这是一个基于扩散的通用轨迹预测框架,以缩小五个任务之间的性能差距。SingularTrajectory 的核心是统一相关任务上的各种人类动力学表示。为此,我们首先构建一个奇异空间,将每个任务中所有类型的运动模式投影到一个嵌入空间中。接下来,我们提出了一个在奇异空间中工作的自适应锚点。与有时会产生不可接受路径的传统固定锚点方法不同,我们的自适应锚点可以根据遍历性图将正确的锚点放置在错误的位置。最后,我们采用基于扩散的预测器,使用级联去噪过程进一步增强原型路径。我们的统一框架确保了各种基准设置(如输入模态和轨迹长度)的通用性。

11. TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion ModelsTI2V-Zero:文本到视频扩散模型的零样本图像处理

paper&code

文本条件图像到视频生成 (TI2V) 旨在从给定图像(例如女性照片)和文本描述开始合成逼真的视频 (例如,“一个女人正在喝水。现有的 TI2V 框架通常需要对视频文本数据集和文本和 图像调节。在本文中,我们提出了 TI2V-Zero,这是一种零样本、无调谐的方法,它使预训练的文本到视频 (T2V) 扩散模型能够 以提供的映像为条件,无需任何优化、微调或引入外部模块即可生成 TI2V。TI2V-Zero 能够 生成各种类型的视频,生成的视频比竞争方法生成的视频更逼真。此外,我们表明 当提供更多图像时,TI2V-Zero 可以无缝扩展到其他任务,例如视频填充和预测。它的自回归设计也 支持长视频生成。 为了指导使用额外的图像输入生成视频,我们提出了一种简单的“重复和滑动”策略,该策略可以调节反向去噪过程, 允许冻结扩散模型从提供的图像开始逐帧合成视频。为了确保时间的连续性,我们采用了DDPM 反演策略,用于初始化每个新合成帧的高斯噪声,以及有助于保留视觉细节的重采样技术。

12. TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models TFMQ-DM:扩散模型的时间特征维护量化

paper&code

扩散模型,一种流行的图像框架 一代,在以下方面遇到了重大挑战 由于其延长的推理时间,具有广泛的适用性,并且 大量的内存需求。高效的培训后 量化 (PTQ) 对于解决这些问题至关重要 传统模型。与传统模型不同,扩散模型在很大程度上依赖于时间步长 t 来实现 令人满意的多轮降噪。通常,有限集合 {1, . . . , T} 中的 t 被编码为时间特征 与采样数据完全无关的模块很少。但是,现有的 PTQ 方法无法优化这些模块 分别。他们采用不适当的重建目标 以及复杂的标定方法,导致时间特征和去噪轨迹受到严重干扰, 以及低压缩效率。为了解决这些问题, 我们提出了一种时间特征维护量化 (TFMQ) 框架建立在时间信息之上 块,仅与时间步长 t 相关,不相关 到采样数据。在开创性的块设计的支持下,我们设计了时间信息感知重建 (TIAR) 和有限集校准 (FSC) 可在有限的时间内对齐全精度时间特征。配备 在框架中,我们可以维护最时态的信息,并确保端到端的生成质量。对各种数据集和扩散模型进行广泛的实验 证明我们最先进的结果。值得注意的是,我们的量化方法首次实现了与全精度模型几乎相当的模型性能。 4 位权重量化。此外,我们的方法会产生 与之前的作品相比,LSUN-Bedrooms 256 × 256 的量化时间几乎没有额外的计算成本,并将量化时间缩短了2.0×。

13. Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder利用潜在扩散模型和隐式神经解码器生成任意尺度图像并上采样

paper&code

超分辨率 (SR) 和图像生成是计算机视觉中的重要任务,并且广泛 在实际应用中采用。 然而,大多数现有方法只能在固定比例的放大倍率下生成图像,并且会受到影响 过度平滑和伪影。 此外,它们没有提供足够的输出图像多样性,也没有提供 不同的规模。 大多数相关工作将隐式神经表示(INR)应用于去噪扩散模型 获得连续分辨率但多样化和高质量的 SR 结果。 由于该模型在图像空间中运行,因此产生的图像分辨率越大, 需要更多的内存和推理时间,并且它也不会保持特定于规模的 一致性。 我们提出了一种新的管道,可以超解析输入图像或从随机生成 噪声:任意比例的新图像。该方法由一个预训练的自动编码器组成,一个 潜在扩散模型和隐式神经解码器及其学习策略。 所提出的方法在潜在空间中采用扩散过程,因此高效且对齐 输出图像空间由 MLP 以任意比例解码。 更具体地说,我们的任意比例解码器是由不带 从预训练的自动编码器和局部隐式图像函数 (LIIF) 进行放大 系列。通过去噪和取向损耗来学习潜伏扩散过程 共同。输出图像中的错误通过固定解码器反向传播,从而提高了质量 的输出图像。 在广泛的实验中,在两个任务上使用多个公共基准,即图像 在任意尺度下生成超分辨率和新颖的图像,所提方法优于 图像质量、多样性和比例一致性指标中的相关方法。是的 在推理速度和内存使用方面明显优于相关现有技术。

14. BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models BIVDiff:通过桥接图像和视频扩散模型进行通用视频合成的免训练框架

paper&code

扩散模型在文本驱动的图像和视频生成方面取得了巨大进步。现在,文本到图像的基础模型被广泛应用于各种下游图像合成任务,例如可控图像生成和图像编辑,而由于多种原因,下游视频合成任务的探索较少。首先,它需要巨大的内存和计算开销来训练视频生成基础模型。即使使用视频基础模型,下游视频合成任务仍然需要额外的昂贵训练。其次,尽管有些作品以免训练的方式将图像扩散模型扩展到视频中,但时间一致性无法很好地保持。最后,这些适应方法是专门为一项任务设计的,无法推广到不同的任务。为了缓解这些问题,我们提出了一个无需训练的通用视频合成框架,通过桥接特定的图像扩散模型和一般的文本到视频基础扩散模型,创造了BIVDiff。具体来说,我们首先使用特定的图像扩散模型(例如,ControlNet 和 Instruct Pix2Pix)进行逐帧视频生成,然后对生成的视频进行混合反演,最后将反转的潜伏输入到视频扩散模型(例如,VidRD 和 ZeroScope)中进行时间平滑。该解耦框架支持针对不同目的灵活选择图像模型,任务泛化能力强,效率高。为了验证BIVDiff的有效性和通用性,我们执行了广泛的视频合成任务,包括可控的视频生成、视频编辑、视频修复和外画。

*15. Video Interpolation With Diffusion Models视频插值与扩散模型

paper

我们提出了VIDIM,这是一种用于视频插值的生成模型,它可以在给定开始和结束帧的情况下创建短视频。为了实现高保真度并生成输入数据中看不见的运动,VIDIM使用级联扩散模型首先以低分辨率生成目标视频,然后根据低分辨率生成的视频生成高分辨率视频。我们将 VIDIM 与以前最先进的视频插值方法进行了比较,并演示了此类工作在大多数情况下如何失败,在这些设置中,底层运动是复杂、非线性或模棱两可的,而 VIDIM 可以轻松处理此类情况。此外,我们还演示了如何在起始帧和结束帧上进行无分类器引导,以及如何在没有额外参数的情况下在原始高分辨率帧上调节超分辨率模型,从而解锁高保真结果。VIDIM 可以快速采样,因为它可以联合对所有要生成的帧进行降噪,每个扩散模型需要不到 10 亿个参数即可产生令人信服的结果,并且在较大的参数计数下仍然具有可扩展性和改进的质量。

16. VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models VMC:使用时间注意力自适应对文本到视频扩散模型进行视频运动定制

paper&code

文本到视频扩散模型具有显着先进的视频生成功能。然而,定制这些模型以生成具有定制动作的视频是一个巨大的挑战。具体来说,他们在 (a) 准确地再现目标视频中的运动,以及 (b) 创建不同的视觉变化方面遇到了障碍。例如,将静态图像自定义方法直接扩展到视频通常会导致外观和运动数据的复杂纠缠。为了解决这个问题,我们在这里提出了视频运动定制 (VMC) 框架,这是一种新颖的一次性调优方法,旨在适应视频扩散模型中的时间注意力层。我们的方法引入了一种新颖的运动蒸馏物镜,使用连续帧之间的残差矢量作为运动参考。然后,扩散过程保留了低频运动轨迹,同时减轻了图像空间中与高频运动无关的噪声。我们针对不同现实世界运动和上下文中最先进的视频生成模型验证了我们的方法。

17. Residual Denoising Diffusion Models 残差去噪扩散模型

paper&code

我们提出了残差去噪扩散模型(RDDM),这是一种新颖的双扩散过程,将传统的单去噪扩散过程解耦为残差扩散和噪声扩散。这种双重扩散框架通过引入残差,将最初无法解释图像恢复的基于去噪的扩散模型扩展为图像生成和恢复的统一且可解释的模型。具体来说,残差扩散表示从目标图像到降级输入图像的定向扩散,并明确指导图像恢复的反向生成过程,而噪声扩散表示扩散过程中的随机扰动。残差优先考虑确定性,而噪声强调多样性,使RDDM能够有效地统一具有不同确定性或多样性要求的任务,例如图像生成和恢复。通过系数变换,证明了我们的采样过程与DDPM和DDIM的采样过程一致,并提出了一个部分与路径无关的生成过程,以更好地理解逆向过程。值得注意的是,我们的 RDDM 使仅以 L1 丢失和批量大小为 1 进行训练的通用 UNet 能够与最先进的图像恢复方法竞争。

18. AVID: Any-Length Video Inpainting with Diffusion ModelAVID: 用扩散模型修补任意时长的视频

paper&code

扩散模型的最新进展已经成功地实现了文本引导的图像修复。 虽然将这种编辑功能扩展到视频领域似乎很简单, 关于文本引导视频绘画的作品较少。 给定一个视频、初始帧处的遮罩区域和编辑提示, 它要求模型按照编辑指导在每一帧进行填充,同时保持 掩膜外区域完好无损。 文本引导视频修复有三个主要挑战:(i) 编辑视频的时间一致性, (ii)支持不同结构保真度下的不同内修类型,(iii)处理可变视频长度。 为了应对这些挑战,我们推出了带有扩散模型的任意长度视频修复,称为AVID。 我们的模型的核心是配备了有效的运动模块和可调节的结构引导,用于 固定长度的视频修复。 在此基础上,我们提出了一种具有中间框架的新型 Temporal MultiDiffusion 采样管道 注意引导机制, 促进生成具有任何所需持续时间的视频。 我们的综合实验表明,我们的模型可以稳健地处理不同 视频时长范围, 具有高品质。

19. Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting 结构问题:解决图像修复扩散模型中的语义差异

paper&code

用于图像修复的去噪扩散概率模型(DDPM)旨在将正向过程中的噪声添加到图像的纹理中,并通过反向去噪过程将遮罩区域与纹理的未遮罩区域一起恢复。尽管产生了有意义的语义,但现有的艺术在掩蔽区域和未掩蔽区域之间存在语义差异,因为语义密集的未掩蔽纹理无法完全退化,而掩蔽区域在扩散过程中转向纯噪声,导致它们之间存在巨大差异。在本文中,我们旨在回答未掩蔽的语义如何指导纹理去噪过程;以及如何解决语义差异,以促进一致且有意义的语义生成。为此,我们提出了一种名为StrDiffusion的新型结构引导图像修复扩散模型,在结构引导下重新表述传统的纹理去噪过程,推导出简化的图像修复去噪目标,同时揭示:1)语义稀疏结构有利于解决前期的语义差异,而密集纹理在后期产生合理的语义;2)来自未掩蔽区域的语义本质上为纹理去噪过程提供了随时间变化的结构指导,这得益于结构语义的随时间变化的稀疏性。对于去噪过程,训练结构引导的神经网络通过利用掩蔽区域和未掩蔽区域之间去噪结构的一致性来估计简化的去噪目标。此外,我们设计了一种自适应重采样策略作为形式标准,即结构是否能够指导纹理去噪过程,同时调节它们的语义相关性。大量的实验验证了 StrDiffusion 相对于最先进技术的优点。我们的代码可在 https://github.com/htyjers/StrDiffusion 上找到。

20. DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing 释放扩散模型的图像变形能力

paper&code

扩散模型已经实现了非凡的图像生成质量,超过了以前的生成模型。 然而,与GAN相比,扩散模型的一个显着局限性是,由于其高度非结构化的潜在空间,它们难以在两个图像样本之间平滑插值。 这种平滑的插值很有意思,因为它自然而然地可以作为许多应用程序的图像变形任务的解决方案。 在这项工作中,我们提出了 DiffMorpher,这是第一种使用扩散模型实现平滑和自然图像插值的方法。 我们的核心思想是通过分别拟合两个 LoRA 来捕获两个图像的语义,并在 LoRA 参数和潜在噪声之间进行插值,以确保平滑的语义过渡,其中对应关系自动出现,而无需注释。 此外,我们提出了一种注意力插值和注入技术、一种自适应归一化调整方法和一种新的采样方案,以进一步增强连续图像之间的平滑度。 大量的实验表明,DiffMorpher 在各种对象类别中实现了比以前的方法更好的图像变形效果,弥合了将扩散模型与 GAN 区分开来的关键功能差距。

21. Relation Rectification in Diffusion Model 扩散模型中的关系整流

paper&code

尽管具有非凡的生成能力,但大型文本到图像的扩散模型,就像熟练但粗心的艺术家一样,经常难以准确描绘对象之间的视觉关系。正如我们通过仔细分析发现的那样,这个问题源于一个未对齐的文本编码器,该编码器难以解释特定关系并区分相关对象的逻辑顺序。为了解决这个问题,我们引入了一个名为关系校正的新任务,旨在改进模型以准确表示它最初无法生成的给定关系。为了解决这个问题,我们提出了一种利用异构图卷积网络(HGCN)的创新解决方案。它对输入提示中关系术语和相应对象之间的方向关系进行建模。具体来说,我们在一对具有相同关系词但对象顺序相反的提示上优化了 HGCN,并辅以一些参考图像。轻量级的HGCN对文本编码器生成的文本嵌入进行调整,确保文本关系在嵌入空间中的准确反映。至关重要的是,我们的方法保留了文本编码器和扩散模型的参数,保留了模型在不相关描述上的鲁棒性能。我们在新策划的各种关系数据数据集上验证了我们的方法,展示了在生成具有精确视觉关系的图像方面的定量和定性增强。

22. DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations 具有解纠缠表示的高效程式化扩散模型

paper&code

基于扩散的文本到图像模型在转换参考风格方面具有巨大的潜力。然而,当前基于编码器的方法在传输样式时会严重损害文本到图像模型的文本可控性。在本文中,我们引入了 DEADiff 来解决这个问题,使用以下两种策略:1)一种将参考图像的样式和语义解耦的机制。解耦的特征表示首先由Q-Formers提取,并由不同的文本描述进行指导。然后,它们被注入相互排斥的交叉注意力层子集中,以便更好地解开纠缠。2)非重建学习方法。Q-Formers 使用成对图像而不是相同的目标进行训练,其中参考图像和地面实况图像具有相同的样式或语义。我们表明,DEADiff在定量和定性方面都证明了DEADiff在文本到图像模型中固有的文本可控性和与参考图像的风格相似性之间实现了最佳的视觉风格化效果和最佳平衡。

23. DeepCache: Accelerating Diffusion Models for Free 免加速扩散模型

paper&code

扩散模型因其卓越的生成能力,最近在图像合成领域获得了前所未有的关注。尽管这些模型具有强大的功能,但它们往往会产生大量的计算成本,这主要归因于顺序去噪过程和繁琐的模型大小。压缩扩散模型的传统方法通常涉及大量的再训练,这带来了成本和可行性方面的挑战。在本文中,我们介绍了DeepCache,这是一种新颖的免训练范式,可以从模型架构的角度加速扩散模型。DeepCache 利用了在扩散模型的顺序去噪步骤中观察到的固有时间冗余,该冗余在相邻的去噪阶段缓存和检索特征,从而减少了冗余计算。利用 U-Net 的特性,我们重用高级功能,同时以非常便宜的方式更新低级功能。反过来,这种创新策略又实现了 2.3 的加速系数×对于 Stable Diffusion v1.5,CLIP 分数仅下降 0.05,而 4.1×对于 LDM-4-G,ImageNet 上的 FID 略微下降了 0.22。我们的实验还证明了 DeepCache 优于现有的修剪和蒸馏方法,这些方法需要重新训练,并且它与当前采样技术兼容。此外,我们发现,在相同的吞吐量下,DeepCache 有效地实现了与 DDIM 或 PLMS 相当甚至略有改进的结果。

24. MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models 使用扩散模型从图像和语言线索合成音乐

paper&code

音乐是一种可以传达情感和感受的通用语言。它构成了从电影到社交媒体帖子的整个创意媒体范围的重要组成部分。 可以合成音乐的机器学习模型主要取决于对音乐的文本描述。 受音乐家不仅从电影剧本中创作音乐,而且通过可视化来创作音乐的启发,我们提出了MeLFusion, 一个可以有效地使用来自文本描述和相应图像的线索来合成音乐的模型。 MeLFusion是一种具有新颖视觉突触的文本到音乐的扩散模型,它有效地将视觉模态的语义注入到生成的音乐中。 为了促进该领域的研究,我们引入了一个新的数据集MeLBench,并提出了一个新的评估指标IMSM。 我们详尽的实验评估表明,在音乐合成管道中添加视觉信息可以显着改善 生成的音乐质量,客观和主观衡量,FAD 分数的相对增益高达 67.98%。 我们希望我们的工作能引起人们对这个务实但相对未被充分探索的研究领域的关注。

25. Grid Diffusion Models for Text-to-Video Generation用于文本到视频生成的网格扩散模型

paper&code

扩散模型的最新进展显著改善了文本到图像的生成。然而,由于数据集更大,所需的计算成本更高,因此从文本生成视频比从文本生成图像更具挑战性。大多数现有的视频生成方法都使用考虑时间维度的 3D U-Net 架构或自回归生成。与文本到图像生成相比,这些方法需要大型数据集,并且在计算成本方面受到限制。为了应对这些挑战,我们提出了一种简单但有效的新型网格扩散,用于在建筑中没有时间维度的文本到视频生成,以及一个大型文本-视频配对数据集。我们可以通过将视频表示为网格图像来生成高质量的视频,无论帧数如何,都可以使用固定数量的 GPU 内存生成高质量的视频。此外,由于我们的方法将视频的尺寸缩小到图像的尺寸,因此可以将各种基于图像的方法应用于视频,例如图像处理中的文本引导视频操作。我们提出的方法在定量和定性评估方面都优于现有方法,证明了我们的模型适用于真实世界的视频生成。

26. Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models基于标记优化的开放词汇注意力图,用于扩散模型中的语义分割

paper&code

扩散模型代表了文本到图像生成的新范式。除了从文本提示生成高质量图像外,Stable Diffusion 等模型还成功扩展到语义分割伪掩码的联合生成。然而,当前的扩展主要依赖于提取与用于图像合成的提示词相关的注意力。此方法限制了从文本提示中未包含的单词标记派生的分段掩码的生成。在这项工作中,我们引入了开放词汇注意力地图(OVAM)——一种用于文本到图像扩散模型的免训练方法,可以为任何单词生成注意力地图。此外,我们提出了一种基于OVAM的轻量级优化过程,用于查找具有单个注释的对象类生成准确注意力图的标记。我们在现有的最先进的 Stable Diffusion 扩展中评估这些代币。性能最佳的模型将合成图像伪掩码的 mIoU 从 52.1 提高到 86.6,这表明我们优化的令牌是提高现有方法性能的有效方法,无需更改架构或重新训练。

27. Self-correcting LLM-controlled Diffusion Models自校正 LLM 控制扩散模型

paper&code

自校正 LLM 控制扩散 (SLD) 框架的特点:
自我纠正:使用 LLM 集成检测器增强生成模型,以实现精确的文本到图像对齐。
统一生成和编辑:擅长图像生成和细粒度编辑。
通用兼容性:适用于任何图像生成器,如 DALL-E 3,无需额外的训练或数据。

28. Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers文本到图像扩散模型是伟大的素描-照片媒人

paper&code

本文首次探讨了基于零镜头素描的文本到图像扩散模型 图像检索 (ZS-SBIR)。我们重点介绍一个关键发现:文本到图像的传播能力 模型无缝弥合草图和照片之间的差距。这种熟练程度的基础是 他们强大的跨模态能力和形状偏差,这些发现通过我们的 试点研究。为了有效地利用预训练的扩散模型,我们引入了一个 简单而强大的策略侧重于两个关键方面:选择最佳特征图层 并利用视觉和文本提示。对于前者,我们确定哪些层最丰富 与信息,并且最适合特定的检索要求(类别级或 细粒度)。然后,我们采用视觉和文本提示来指导模型的特征提取 过程,使其能够生成更具区分性和上下文相关性的跨模态 交涉。在几个基准数据集上的广泛实验验证了重要的 性能改进。

  • 12
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值