What the DAAM: Interpreting Stable Diffusion Using Cross Attention

在这里插入图片描述

论文链接:https://arxiv.org/pdf/2210.04885.pdf

Background
在读本篇文章之前先来了解深度学习的可解释性,可解释性方法有类激活映射CAM、基于梯度的方法、反卷积等,在diffusion模型出来之后,本篇文章就对扩散模型中的交叉注意力做了探究,主要做的工作是用交叉注意力来解释扩散模型学习到的特征,针对的具体任务是文本生成,探究不同词性、语义的单词和图像特征之间的关系。
不同的解释方法对应的可视化
不同的解释方法对应的可视化

在这里插入图片描述
可以看到,不同语义的单词,对应图片的注意力区域也会有所不同。
在这里插入图片描述

本篇文章的研究内容有两方面,一个是研究语法关系如何转化为视觉交互,另一个是扩散模型中的视觉语言现象。用到的研究方法是对
归一化的Cross attention分别进行定量评估: 语义分割和定性评估:归因分析。

Pipline

Stable Di

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

scycie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值