文章链接:https://arxiv.org/pdf/2406.07540
项目链接:https://genforce.github.io/ctrl-x/
最近的可控生成方法,如FreeControl和Diffusion Self-guidance,为文本到图像(T2I)扩散模型带来了细粒度的空间和外观控制,而无需训练辅助模块。然而,这些方法针对每种类型的评分函数优化潜在embedding,并采用较长的扩散步骤,使生成过程耗时且限制了它们的灵活性和使用。
本文提出了Ctrl-X,这是一个简单的T2I扩散控制结构和外观的框架,无需额外的训练或指导。Ctrl-X设计了前馈结构控制,以实现与结构图像的结构对齐,并进行语义的外观迁移,以促进从用户输入图像进行外观迁移。
广泛的定性和定量实验说明了 Ctrl-X 在各种条件输入和模型 checkpoints 上的卓越性能。特别是,Ctrl-X支持任何形式的条件图像的新型结构和外观控制,与现有工作相比具有更高的图像质量和外观迁移,并为任何T2I和文本到视频(T2V)扩散模型提供即插即用功能。
总结本文的贡献如下:
- 提出了Ctrl-X,这是一个简单的即插即用方法,基于预训练的文本到图像扩散模型,在生成过程中提供结构和外观的解耦和 zero-shot 控制,无需额外的训练或指导。
- Ctrl-X 提出了第一个支持多个条件信号(结构和外观)和模型架构(例如文本到图像和文本到视频)的通用无需指导的解决方案。
- 本文的方法在条件对齐、文本图像对齐和图像质量方面与以往基于训练和指导的基线(如ControlNet + IP-Adapter和FreeControl)相比表现出更好的结果。
无导向结构和外观控制
Ctrl-X是一个通用框架,用于免训练、无引导、zero-shot的T2I扩散,具有结构和外观控制。给定结构图像 I s I^s Is和外观图像 I a I^a Ia,Ctrl-X操作一个预训练的T2I扩散模型 ε θ ε_θ εθ,生成一个输出图像 I o I^o Io,该图像继承了 I s I^s Is的结构和 I a I^a Ia的外观。
方法概述。方法如下图2所示,并概括如下:给定干净的结构和外观潜变量 I s = x 0 s I^s = x^s_0 Is=x0s和 I a = x 0 a I^a = x^a_0 Ia=x0a,首先通过扩散正向过程直接获得噪声结构和外观潜变量 x t s x^s_t xts和 x t a x^a_t xta,然后从预训练的T2I扩散模型中提取它们的U-Net特征。在对输出潜变量 x t o x^o_t xto进行去噪时,从 x t s x^s_t xts注入卷积和自注意力特征,并利用自注意力对应关系将 x t a x^a_t xta的空间感知外观统计信息传输到 x t o x^o_t xto,以实现结构和外观控制。
前馈结构控制
T2I扩散的结构控制需要将结构信息从 I s = x 0 s I^s = x^s_0 Is=