效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)

文章链接:https://arxiv.org/pdf/2406.07540

项目链接:https://genforce.github.io/ctrl-x/

最近的可控生成方法,如FreeControl和Diffusion Self-guidance,为文本到图像(T2I)扩散模型带来了细粒度的空间和外观控制,而无需训练辅助模块。然而,这些方法针对每种类型的评分函数优化潜在embedding,并采用较长的扩散步骤,使生成过程耗时且限制了它们的灵活性和使用。

本文提出了Ctrl-X,这是一个简单的T2I扩散控制结构和外观的框架,无需额外的训练或指导。Ctrl-X设计了前馈结构控制,以实现与结构图像的结构对齐,并进行语义的外观迁移,以促进从用户输入图像进行外观迁移。

广泛的定性和定量实验说明了 Ctrl-X 在各种条件输入和模型 checkpoints 上的卓越性能。特别是,Ctrl-X支持任何形式的条件图像的新型结构和外观控制,与现有工作相比具有更高的图像质量和外观迁移,并为任何T2I和文本到视频(T2V)扩散模型提供即插即用功能。

总结本文的贡献如下:

  • 提出了Ctrl-X,这是一个简单的即插即用方法,基于预训练的文本到图像扩散模型,在生成过程中提供结构和外观的解耦和 zero-shot 控制,无需额外的训练或指导。
  • Ctrl-X 提出了第一个支持多个条件信号(结构和外观)和模型架构(例如文本到图像和文本到视频)的通用无需指导的解决方案。
  • 本文的方法在条件对齐、文本图像对齐和图像质量方面与以往基于训练和指导的基线(如ControlNet + IP-Adapter和FreeControl)相比表现出更好的结果。

无导向结构和外观控制

Ctrl-X是一个通用框架,用于免训练、无引导、zero-shot的T2I扩散,具有结构和外观控制。给定结构图像 I s I^s Is和外观图像 I a I^a Ia,Ctrl-X操作一个预训练的T2I扩散模型 ε θ ε_θ εθ,生成一个输出图像 I o I^o Io,该图像继承了 I s I^s Is的结构和 I a I^a Ia的外观。

方法概述。方法如下图2所示,并概括如下:给定干净的结构和外观潜变量 I s = x 0 s I^s = x^s_0 Is=x0s I a = x 0 a I^a = x^a_0 Ia=x0a,首先通过扩散正向过程直接获得噪声结构和外观潜变量 x t s x^s_t xts x t a x^a_t xta,然后从预训练的T2I扩散模型中提取它们的U-Net特征。在对输出潜变量 x t o x^o_t xto进行去噪时,从 x t s x^s_t xts注入卷积和自注意力特征,并利用自注意力对应关系将 x t a x^a_t xta的空间感知外观统计信息传输到 x t o x^o_t xto,以实现结构和外观控制。

前馈结构控制

T2I扩散的结构控制需要将结构信息从 I s = x 0 s I^s = x^s_0 Is=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值