1.Introduction
视觉控制下的prompt following.
确保生成的图像不仅与prompt相匹配,还与视觉控制所制定的布局和形状相符。当用户只能提供部分对齐的提示-图像对时,上图中,canny模式仅与部分prompt对齐,导致了生成的图像中缺少了像花和草这样的元素,物体的属性也有错配。将prompt following直接从文本到图像迁移到controlnet场景效果并不好,可以在交叉注意力时增强prompt中物体词的attention值,是有效的,但是应用于controlnet时,这些方法仍然受到prompt与视觉控制之间的不对齐的影响,导致效果减弱。在解决属性不匹配问题时,在unet内使属性词和物体词的注意力图更加接近。
引入了与prompt对齐的额外mask,提出了mask引导prompt following。对于对象缺失,引入了mask controlnet来替代原始的controlnet分支,使用mask将controlnet特征分为两部分,仅将