论文粗读系列-8:PFE

论文粗读系列-8

Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing

1.简介

arxiv [Submitted on 6 Mar 2024]

链接:[2403.03431] Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing (arxiv.org)

代码:EasyNLP/diffusion/FreePromptEditing at master · alibaba/EasyNLP · GitHub

深度文本到图像合成(TIS)模型,如稳定扩散,最近在创造性文本到图像生成中获得了显著的普及。然而,对于特定领域的场景,无需调优的文本引导图像编辑(TIE)对于应用程序开发人员来说更为重要。该方法通过在生成过程中操纵注意层中的特征组件来修改图像中的对象或对象属性。然而,对于这些注意层所学习的语义以及注意图的哪些部分有助于图像编辑的成功,我们知之甚少。

在本文中,作者进行了深入的探索性分析,并证明了稳定扩散中的交叉注意图经常包含目标属性信息,这可能导致编辑失败。相比之下,自注意图在向目标图像转换过程中,在保持源图像的几何和形状细节方面起着至关重要的作用。作者的分析为理解扩散模型中的交叉注意和自注意机制提供了有价值的见解。此外,基于本文的研究结果,作者提出了一种简化,但更稳定和高效的免调优程序,该程序在去噪过程中仅修改指定注意层的自注意图。实验结果表明,本文的简化方法在多个数据集上的性能始终优于常用方法。

作者发现

  • 编辑扩散模型中的交叉注意映射对于图像编辑是可选的。替换或改进源和目标图像生成过程之间的交叉注意映射是必不可少的,并且可能导致图像编辑失败。
  • 交叉注意图不仅是条件提示在生成图像中对应位置的权重度量,而且包含了条件令牌的语义特征。因此,用源图像的映射替换目标图像的交叉注意映射可能会产生意想不到的结果。
  • 自注意图反映了图像特征之间的关联,并保留了图像的空间信息,对TIE任务的成功至关重要。

2.对交叉&自注意力的分析

在这里插入图片描述

作者认为交叉注意图和自注意图的语义仍然不清楚。这些交叉注意力和自注意力图仅仅是权重矩阵,还是包含了图像的特征信息?

为了回答这些问题,作者探索了注意图在扩散模型中的意义。受NLP领域探索性分析方法的启发,作者提出构建数据集和训练分类网络来探索注意图的属性。基本思想是,如果一个训练好的分类器可以准确地从不同的类别中分类注意图,那么注意图就包含了类别信息的有意义的特征表示。因此,作者在扩散模型的交叉注意层和自注意层之上引入了一个特定于任务的分类器。该分类器是一个两层MLP,用于预测注意图的特定语义属性。为了更直观地呈现分析结果,作者使用颜色形容词和动物名词组成提示数据集,每个数据集包含十个类别。对于颜色形容词,有两种提示格式:a < color > car and a < color > object 。动物提示格式是 a/an < anima l> standing in the park。在生成提示后,作者采用探测方法提取单词和对应的交叉注意图,以及注意层中的自注意图。最后,通过训练和评估分类器的性能,作者 深入了解了注意力图所捕获的语义知识。

结果表明:

  • 交叉注意图是一种可靠的类别表示,表明它不仅反映了权重信息,而且包含了与类别相关的特征。这解释了使用交叉注意图替换的图像编辑失败的原因

  • 在目标图像生成过程中,将源图像中各层的自关注图进行替换,得到的目标图像保留了原图像的所有结构信息,但阻碍了编辑成功。相反,如果不替换自注意图,将获得与使用目标提示符直接生成的图像相同的图像

  • 非类别嵌入编辑词的交叉注意力图也含有类别信息。如果我们用目标图像的交叉注意图替换未编辑单词对应的交叉注意图,可能会引入颜色信息,最终导致编辑失败。

3.方法

基于对注意层的探索,作者提出了一种更直接但更稳定和有效的方法,即自由提示编辑(FPE)。让Isrc作为要编辑的图像。作者的目标是基于目标提示符Pdst合成一个新的所需图像Idst,同时保留原始图像Isrc的内容和结构。目前的编辑方法,如P2P,在源图像和目标图像生成过程中取代了交叉关注图。这就需要修改原来的提示,找到相应的注意图进行替换。然而,这一限制阻碍了P2P直接应用于编辑真实图像,因为它们没有原始提示。

在对注意层进行探索的基础上,作者的核心思想是将Isrc的布局和内容与目标提示符Pdst合成的语义信息相结合,合成出保留原图像Isrc结构和内容信息的所需图像Idst。为了实现这一目标,作者在源图像和目标图像去噪过程中,在扩散模型的注意层4到14中采用了自注意劫持机制。对于生成图像的编辑,作者在扩散去噪过程中将目标图像的自注意映射替换为源图像的自注意映射。在处理实际图像时,首先利用反演运算获得重建实际图像所需的潜变量。随后,在编辑过程中,在目标图像的生成过程中替换真实图像的自关注图。作者可以完成TIE任务的原因如下:

  • 交叉注意机制有利于合成图像与目标提示的融合,即使不引入源提示的交叉注意图,也可以使目标提示与图像自动对齐
  • 自注意图包含源图像的空间布局和形状细节,自注意机制允许将原始图像的结构信息注入生成的目标图像中。

4.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

不摆了,加训!

  • 30
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值