论文链接:https://arxiv.org/pdf/2210.04885.pdf
Background
在读本篇文章之前先来了解深度学习的可解释性,可解释性方法有类激活映射CAM、基于梯度的方法、反卷积等,在diffusion模型出来之后,本篇文章就对扩散模型中的交叉注意力做了探究,主要做的工作是用交叉注意力来解释扩散模型学习到的特征,针对的具体任务是文本生成,探究不同词性、语义的单词和图像特征之间的关系。
不同的解释方法对应的可视化
可以看到,不同语义的单词,对应图片的注意力区域也会有所不同。
本篇文章的研究内容有两方面,一个是研究语法关系如何转化为视觉交互,另一个是扩散模型中的视觉语言现象。用到的研究方法是对
归一化的Cross attention分别进行定量评估: 语义分割和定性评估:归因分析。
Pipline
Stable Di