效果超越ControlNet+IP-Adapter和FreeControl！Ctrl-X：可控文生图新框架（加州大学&英伟达）_ctrl-x: controlling structure and appearance for t-CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/139726237

文章链接：https://arxiv.org/pdf/2406.07540

项目链接：https://genforce.github.io/ctrl-x/

最近的可控生成方法，如FreeControl和Diffusion Self-guidance，为文本到图像（T2I）扩散模型带来了细粒度的空间和外观控制，而无需训练辅助模块。然而，这些方法针对每种类型的评分函数优化潜在embedding，并采用较长的扩散步骤，使生成过程耗时且限制了它们的灵活性和使用。

本文提出了Ctrl-X，这是一个简单的T2I扩散控制结构和外观的框架，无需额外的训练或指导。Ctrl-X设计了前馈结构控制，以实现与结构图像的结构对齐，并进行语义的外观迁移，以促进从用户输入图像进行外观迁移。

广泛的定性和定量实验说明了 Ctrl-X 在各种条件输入和模型 checkpoints 上的卓越性能。特别是，Ctrl-X支持任何形式的条件图像的新型结构和外观控制，与现有工作相比具有更高的图像质量和外观迁移，并为任何T2I和文本到视频（T2V）扩散模型提供即插即用功能。

总结本文的贡献如下：

提出了Ctrl-X，这是一个简单的即插即用方法，基于预训练的文本到图像扩散模型，在生成过程中提供结构和外观的解耦和 zero-shot 控制，无需额外的训练或指导。
Ctrl-X 提出了第一个支持多个条件信号（结构和外观）和模型架构（例如文本到图像和文本到视频）的通用无需指导的解决方案。
本文的方法在条件对齐、文本图像对齐和图像质量方面与以往基于训练和指导的基线（如ControlNet + IP-Adapter和FreeControl）相比表现出更好的结果。

无导向结构和外观控制

Ctrl-X是一个通用框架，用于免训练、无引导、zero-shot的T2I扩散，具有结构和外观控制。给定结构图像 $I^s$ 和外观图像 $I^a$ ，Ctrl-X操作一个预训练的T2I扩散模型 $ε_θ$ ，生成一个输出图像 $I^o$ ，该图像继承了 $I^s$ 的结构和 $I^a$ 的外观。

方法概述。方法如下图2所示，并概括如下：给定干净的结构和外观潜变量 $I^s = x^s_0$ 和 $I^a = x^a_0$ ，首先通过扩散正向过程直接获得噪声结构和外观潜变量 $x^s_t$ 和 $x^a_t$ ，然后从预训练的T2I扩散模型中提取它们的U-Net特征。在对输出潜变量 $x^o_t$ 进行去噪时，从 $x^s_t$ 注入卷积和自注意力特征，并利用自注意力对应关系将 $x^a_t$ 的空间感知外观统计信息传输到 $x^o_t$ ，以实现结构和外观控制。