【Cross-attention in DETR】

Cross-attention Module理解

浅理解一下
通过读DETR & Conditional DETR中引发对cross-attention的理解。

  • 目标端(decoder)中的query(object query)是需要被表达的,而encoder输出的key和value是用于表达的。

  • key和query content部分(content embedding)的好坏极大影响最终的预测。DETR的实验(从第二个decoder层开始将key和object query的positional embedding移除)发现AP只轻微下降,这证明了模型的表现对key、query的content embedding的依赖性很高,对spatial embedding(positional embedding)的依赖较少。换句话说,content embedding太忙了,不仅要负责外观(识别),还要定位物体的 extremity 区域。

  • Cross-attention中spatial attention map
    在这里插入图片描述
    我们可以看到,每个 head 的 spatial attention map 都在尝试找物体的一个 extremity 区域,例如: 围绕物体的 bounding box 的某条边。训练了 500 epoch 的 DETR 基本能够找准 extremity 区域的大概位置,然而只训练了 50 epoch 的 DETR 却找不准。这是因为:
    1.spatial embedding query没发挥定位作用,可以说没什么

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值