《Contextual Transformer Networks for Visual Recognition》阅读笔记

传统的Transformer是使用1x1卷积操作来获key-query pair,这种key-query pair都是独立的,没有考虑上下文

作者提出了一种使用3x3卷积操作来得到融合上下文的key(局部上下文),作为static context,再将key与query拼接起来得到attention matrix,然后通过与value进行self-attn得到dynamic context,最终将static context与dynamic context融合起来作为最终的输出

从上图中可以发现,传统的self-attention中,qkv均是通过1*1卷积获得的,成对的qk相乘忽视了相邻的key中蕴含的上下文信息

获得Q、K、V

首先本文的query和key不再使用1*1卷积获得,而是直接取原patch的值,由于本文未对value进行研究,因此value依然通过1*1卷积获得。

对于key特征,使用k*k的卷积核提取局部上下文信息,记作K1

接下来对K1和Q进行concat后再使用2个1*1卷积来得到注意力矩阵。这种做法与传统的自注意力区别在于,传统的自注意力使用的是成对的qk计算注意力,而本文使用的是query和局部的融合了上下文信息的key进行连接,再使用两个1*1的通道卷积来获得注意力矩阵

将value和注意力矩阵通知self-attn获得全局上下文信息,记作K2

最后将K1、K2通过注意力机制进行局部和全局上下文信息的融合,得到最终输出

Contextual Transformer Networks

直接使用Cot来替换ResNet网络中的3x3卷积

Experiment

ablation

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值