超越所有NeRF方法!快速和高质量的3D编辑和身份保持新策略:DreamCatalyst

论文链接:https://arxiv.org/pdf/2407.11394
github链接:https://dream-catalyst.github.io/

亮点直击:

  • 本文通过将DDS解释为SDEdit过程,提出了一种3D编辑的一般公式,并提出了一种用于快速编辑和质量改进的专门公式。

  • 在一般的3D编辑任务中采用了递减时间步采样,这是一种在3D生成任务中常用的加速训练速度的采样算法,解决了以往工作中面临的挑战。

  • 首次引入FreeU用于3D编辑,以增强可编辑性,克服重新加权编辑目标公式中固有的权衡。

  • 编辑的速度和质量优于当前最先进的NeRF编辑方法。

得分蒸馏采样(SDS)因其固有的3D一致性,在文本驱动的3D编辑任务中已成为一种有效的框架。然而,现有基于SDS的3D编辑方法由于偏离扩散模型的采样动态,导致训练时间过长且结果质量低下。在本文中,本文提出了DreamCatalyst,这是一种将基于SDS的编辑解释为扩散反向过程的新颖框架。本文的目标函数考虑了采样动态,因此使DreamCatalyst的优化过程成为编辑任务中扩散反向过程的近似。

DreamCatalyst旨在减少训练时间并提高编辑质量。DreamCatalyst提供了两种模式:

  • 快速模式,仅需约25分钟即可编辑NeRF场景;

  • 高质量模式,在不到70分钟内产生优质结果。具体来说,本文的高质量模式在速度和质量方面均优于当前最先进的NeRF编辑方法。

DREAMCATALYST

动机

本文旨在设计一个目标函数,类似于PDS(Perceptual Diffusion Sampling),包含一个显式的强身份保留项,同时与扩散时间步的作用对齐,并允许应用递减时间步采样。为了实现这一目标,必须在大噪声扰动中强调身份保留,并通过重新加权公式12中的每一项,在小扰动水平上不发生偏离。然而,随机潜在匹配的公式本质上隐含了一个身份保留项和DDS(Diffusion-Denoising Score Matching)损失的梯度,使其无法直接调整系数。因此,本文提供了DDS的新解释,并通过这一视角引入PDS的一般公式来重新加权这些项。此外,本文提出了一种专门的公式,与扩散时间步的角色对齐,并支持递减时间步采样。这种专门的公式主要有两个优点:

  • 通过考虑扩散时间步的作用,本文的公式可以生成细节丰富的3D编辑结果;

  • 通过扩散友好的采样,递减时间步采样极大地减少了训练时间。

PDS 的一般公式

本文揭示了反向SDEdit过程和DDS(Diffusion-Denoising Score Matching)之间的关系。DreamCatalyst的关键见解是,DDS的目标等同于基于单步DDIM(Denoising Diffusion Implicit Models)的SDEdit采样。

上述公式通过解决随机采样噪声的随机微分方程(SDEs)实现随机编辑。然而,最近的编辑研究利用DDIM反演来保留源身份。通过结合SDEdit和DDIM调度来保留源身份,基于DDIM的SDEdit采样定义为:

其中 表示需要编辑的图像。特别是当本文定义 进行确定性采样时,噪声为 。在这种情况下,基于 DDIM 反演的扰动图像 作为前向过程。本文可以将公式 13 重写为如下形式:

尽管SDEdit的单步去噪过程在扩散过程中通过公式13已经很清楚,但受到Dreamsampler(Kim等人,2024年)的启发,本文可以将该过程解释为如下的优化问题:

其中:

公式 17 表明,DDS 目标等同于优化问题的目标,当 时。因此,解决 DDS 目标确保了与 SDEdit 的单步过程等价,并且通过减少时间步长采样优化 DDS 目标成为整个 SDEdit 框架。本文注意到,提出的反演是一种近端反演。传统的 DDIM 反演通过多步反演来计算 以进行枢轴。然而,这种多步反演方法对于3D编辑中的每个多视图图像需要进行大量计算。为了减轻计算负担,DreamCatalyst 对每个噪声扰动级别采样单步 ,这由于 随 的不同而实现了近端反演。

DDS 目标使扩散反转过程成为可能,但仅仅使用 DDS 目标进行优化会导致次优结果,因为它缺乏身份保留。因此,由于 DDS 目标可以被视为一个优化问题,本文在其基础上增加了额外的正则化项。因此,PDS 的一般公式是在 DDS 目标中添加身份保留正则化项 ,表示为:

在这个框架中, 和 是一般公式中的权重函数。本文注意到,正则化项 负责保留身份,而 DDS 损失 负责编辑。现在,本文可以使用公式 18 重新加权 PDS 的公式表示。

基于 SDS 的扩散友好编辑

在本节中,本文提出了一个专门的公式(公式18),该公式考虑了扩散时间步的作用以及与递减时间步采样的对齐问题。DreamCatalyst中的公式设计旨在满足两个条件:

  • 在高时间步中强身份保留

  • 在低时间步中减少身份保留。

第一个条件是,在高时间步中强身份保留,可以减少源特征在高噪声扰动水平下的信息丢失。这个条件使得可以利用递减时间步采样。第二个条件是,在低时间步中弱身份保留,这有助于在扩散过程中合成细节。满足这两个条件的DreamCatalyst专门公式如下:

其中,

而 、、 分别是超参数。本文在所有实验中将 设置为 0.075, 设置为 0.2, 设置为 0.8。如下图 2b 所示,DreamCatalyst 的公式满足了这两个条件,因此在本文的公式中适用递减时间步采样。

SDEdit 过程中最小化 要求采用类似扩散逆过程的时间步采样。为了实现这一目标,本文采用了递减时间步采样,该采样从时间步 均匀采样。本文注意到尽管黄等人(2023年)提出的非递减时间步采样也是一个不错的选择,但本文采用递减时间步采样以尽可能在整个时间步中满足等式 16。总体来说,所提出的目标函数和递减时间步采样使得 SDEdit 过程可以使用参数化模型,尤其是本文中的 NeRF。DreamCatalyst 的整体框架如下图 3 所示。

最后,本文像之前的工作一样省略了 U-Net Jacobian 项,以计算 的梯度,如下所示:

本文注意到,满足两个条件能够实现有效的3D编辑,如上图1所示。本文将更优设计选择的探索留给未来的工作。

使用 FREEU 增强可编辑性

尽管使用所提出的损失函数的SDEdit过程改善了编辑质量,但目标函数的设计因固有的权衡而仅能带来有限的改进。在编辑任务中,可编辑性和身份保留是众所周知的权衡。修改模型架构提供了一种替代方法来增强编辑质量,带来了仅通过损失函数设计无法实现的性能提升。

本文引入了在3D编辑中使用FreeU,以在不增加额外内存使用和计算成本的情况下增强可编辑性。FreeU通过放大包含大量低频信息的骨干特征来抑制高频特征。放大骨干特征强调了低频特征,从而相对减少了高频特征的影响。结果,通过抑制高频特征,提高了可编辑性,因为高频特征的锐利特性被平滑处理,边缘特征被削弱。此外,身份保留对应于低频域,通过放大骨干特征得以维持。综上所述,FreeU在不牺牲身份保留的情况下增强了可编辑性。

REAMCATALYST 中的文本指导

在 DreamCatalyst 中,本文使用了 InstructPix2Pix (IP2P),这种方法在 NeRF 和 3D 高斯散点编辑中被广泛应用,用于指示性编辑。IP2P 的指导由图像和文本条件组成。由于目标和源提示中的内容经常相交,DreamCatalyst 将 设置为 ,作为协作评分蒸馏 (Collaborative Score Distillation, CSD)。这种设置可以防止在相交内容的指导过程中出现干扰。图像和文本引导的噪声预测计算如下:

其中, 是图像引导的比例, 和 分别是源图像和空图像的条件。

实验

定性评估

在下图 4 中,本文展示了与基线方法的定性比较。虽然基线方法产生的背景模糊且过度饱和,但 DreamCatalyst 很好地保留了源场景的背景。此外,与基线方法相比,DreamCatalyst 合成了更详细、更逼真的编辑结果(例如,基线方法生成的郁金香模糊且缺乏细节)。PDS 似乎可以很好地编辑主体,但其结果往往过度饱和且不够逼真,背景更容易模糊或改变颜色。因此,DreamCatalyst 在保持源场景身份的同时,具有更优越的可编辑性,超越了其他基线。

定量评估

本文使用 CLIP 方向相似度、CLIP 图像相似度和美学评分来评估 DreamCatalyst 和基线方法。CLIP 方向相似度衡量图像与文本的对齐程度,CLIP 图像相似度评估身份保留的水平,美学评分则表示编辑质量。如下表 1 和下图 5 所示,DreamCatalyst 在所有指标上均获得最高分。此外,本文还测量了每种方法的编辑时间。为了公平比较,本文将所有方法的分辨率设置为相同。DreamCatalyst 的快速模式比最新的基于 SDS 的编辑方法 PDS 快约 23 倍,高质量模式则比 PDS 快约 8 倍。尽管 IN2N 在二维空间中进行编辑,比直接的三维编辑方法所需时间更少,但即使在高质量模式下,DreamCatalyst 仍比 IN2N 快 1.85 倍。

用户研究

本文进行了用户研究,如下表 2 所示,因为专门用于评估 2D 图像的指标不足以评估 3D 场景。对于每个问题,参与者被要求从基线方法和 DreamCatalyst 的结果中选择最佳视频。本文选择了 15 个文本提示来评估三个标准:(1)提示对齐,(2)整体质量和(3)身份保留。每个标准的问题如下:(1)“在编辑视频时,哪个视频最符合文本提示并展示高质量?”(2)“在编辑视频时,哪个视频展示了最佳的编辑质量?”和(3)“在编辑源视频时,哪个编辑过的视频最好地保留了源视频的背景和身份?”为了收集人类偏好数据,本文利用亚马逊 Mechanical Turk 对 50 名参与者进行了调查。结果表明,DreamCatalyst 在所有标准上都比基线方法更受欢迎,优势明显。

消融实验

FreeU。 本文通过实验证明了 FreeU 在本文方法中的有效性。FreeU 基于扩散模型的 U-Net 架构,通过参数 修改其解码器中上采样特征的比例。如下图 6 (a)-(d) 所示,使用 的 FreeU 结果比不使用 FreeU(即使用普通 U-Net 模型)的结果质量更好。本文保持 值与原始 FreeU 设置一致,该值控制跳跃连接中的低频特征比例。在这个框架中,增加 值会抑制图像中的高频成分。本文假设 FreeU 的这一特性使编辑变得更容易。然而,如果 设置过高,编辑过程会变得过于简单。这个假设由图 6 (b) 和 (c) 的结果支持,其中使用 的 FreeU 导致过度编辑。这种过度编辑不仅限于主要对象,还扩展到背景。虽然在 FreeU 中增加 可以增强编辑过程,但过度抑制高频成分会导致结果过于平滑并产生意外的编辑伪影。

减少时间步采样。 在本节中,本文展示了减少时间步采样的有效性。为了公平比较,实验设置相同,每次使用 500 次迭代,除了时间步采样算法外。如上图 6 所示,减少时间步采样的编辑结果收敛到细节丰富的结果,而随机时间步采样的结果则表现出过饱和的颜色,并且在相同编辑时间内未能保持背景一致性。因此,减少时间步采样可以更快地收敛。

结论

本文提出了一种用于3D编辑的通用公式,通过揭示反向SDEdit过程和DDS之间的关系。基于这一公式,本文引入了DreamCatalyst,它考虑了扩散过程的动态性,通过基于SDS的方法作为反向SDEdit过程来编辑3D场景。此外,本文建议在分数蒸馏中使用FreeU,以克服公式中固有的可编辑性和身份保留之间的权衡。结果表明,DreamCatalyst实现了快速且高质量的3D编辑。通过比较分析和用户研究,本文证明了DreamCatalyst在性能和编辑速度上均超越了最先进的方法。

参考文献

[1] DREAMCATALYST: FAST AND HIGH-QUALITY 3D EDITING VIA CONTROLLING EDITABILITY AND IDENTITY PRESERVATION

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值