TRAINING-FREE STRUCTURED DIFFUSION GUIDANCE FOR COMPOSITIONAL TEXT-TO-IMAGE SYNTHESIS
Abstract
归因绑定和合成能力是目前大模型遇到的主要问题,尤其在面对多个对象时。window11怎么关闭触摸板
基于扩散模型中操纵交叉注意力层的可控特性,将语言结构和扩散引导过程相结合
跨注意力层中的键和值具有与对象布局和内容相关联的强语义。
基于SOTA T2I模型Stable Diffusion,我们的结构化交叉注意力设计是高效的,需要额外的训练样本。
contribution:
- 我们提出了一种直观有效的方法,通过利用语言输入的结构化表示来改进合成文本到图像的合成。我们的方法是高效的,并且无需额外的训练样本即可进行低成本训练。
- 生成的图像中实现了更准确的属性绑定和合成。
Method
对句子中的所有名词进行编码,通过选区树将所有的名词选出,替换整个句子中对应的位置,最后通过交叉注意力输出图像
Experiment
由MSCOCO的自然提示组成,每个提示至少包含两个修改不同对象的颜色单词。