
论文链接:https://arxiv.org/pdf/2210.04885.pdf
Background
在读本篇文章之前先来了解深度学习的可解释性,可解释性方法有类激活映射CAM、基于梯度的方法、反卷积等,在diffusion模型出来之后,本篇文章就对扩散模型中的交叉注意力做了探究,主要做的工作是用交叉注意力来解释扩散模型学习到的特征,针对的具体任务是文本生成,探究不同词性、语义的单词和图像特征之间的关系。

不同的解释方法对应的可视化

可以看到,不同语义的单词,对应图片的注意力区域也会有所不同。

本篇文章的研究内容有两方面,一个是研究语法关系如何转化为视觉交互,另一个是扩散模型中的视觉语言现象。用到的研究方法是对
归一化的Cross attention分别进行定量评估: 语义分割和定性评估:归因分析。
Pipline
Stable Diffusion模型
这个模型是另一篇论文主要的工作,作者直接把这个模型拿过来用了,没有做什么改进。
在这里也简单介绍一下Stable Diffusion,这是一个生成扩散模型,可

最低0.47元/天 解锁文章
4045





