近年来,基于扩散模型的图像生成与编辑技术取得了显著进展,但通用指令驱动的多任务处理框架仍面临输入范式受限和微调效率低下的挑战。针对这一问题,阿里巴巴通义实验室提出的**ACE++**框架,通过改进长上下文条件单元(Long-context Condition Unit, LCU)和两阶段训练策略,为多模态图像生成与编辑任务提供了统一解决方案。
1. 研究背景
现有文本到图像模型(如FLUX.1-dev)在图像编辑任务中存在生成质量退化问题,且多模态输入格式差异导致微调成本高昂。传统LCU模块采用序列维度拼接多模态条件,易引入上下文感知干扰,其数学表达为:
LCU ( X ) = Concat seq [ x img , x mask , x noise ] \text{LCU}(X) = \text{Concat}_{\text{seq}}[x_{\text{img}}, x_{\text{mask}}, x_{\text{noise}}] LCU(X)=Concatseq[ximg,xmask,xnoise]
这种设计限制了模型对复杂指令的响应能力。ACE++通过重构输入范式,在通道维度整合条件信息,显著降低了模型适应成本。