《Contextual Transformer Networks for Visual Recognition》阅读笔记

最新推荐文章于 2023-12-02 09:13:26 发布

李加贝_

最新推荐文章于 2023-12-02 09:13:26 发布

阅读量1.2k

点赞数 1

分类专栏： Transformer 文章标签：深度学习神经网络 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120408200

版权

Transformer 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

传统的Transformer是使用1x1卷积操作来获key-query pair，这种key-query pair都是独立的，没有考虑上下文

作者提出了一种使用3x3卷积操作来得到融合上下文的key（局部上下文），作为static context，再将key与query拼接起来得到attention matrix，然后通过与value进行self-attn得到dynamic context，最终将static context与dynamic context融合起来作为最终的输出

从上图中可以发现，传统的self-attention中，qkv均是通过1*1卷积获得的，成对的qk相乘忽视了相邻的key中蕴含的上下文信息

获得Q、K、V

首先本文的query和key不再使用1*1卷积获得，而是直接取原patch的值，由于本文未对value进行研究，因此value依然通过1*1卷积获得。

对于key特征，使用k*k的卷积核提取局部上下文信息，记作K1

接下来对K1和Q进行concat后再使用2个1*1卷积来得到注意力矩阵。这种做法与传统的自注意力区别在于，传统的自注意力使用的是成对的qk计算注意力，而本文使用的是query和局部的融合了上下文信息的key进行连接，再使用两个1*1的通道卷积来获得注意力矩阵

将value和注意力矩阵通知self-attn获得全局上下文信息，记作K2

最后将K1、K2通过注意力机制进行局部和全局上下文信息的融合，得到最终输出

Contextual Transformer Networks

直接使用Cot来替换ResNet网络中的3x3卷积

Experiment

ablation

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Contextual Transformer Networks for Visual Recognition》阅读笔记

传统的Transformer是使用1x1卷积操作来获key-query pair，这种key-query pair都是独立的，没有考虑上下文作者提出了一种使用3x3卷积操作来得到融合上下文的key（局部上下文），作为static context，再将key与query拼接起来得到attention matrix，然后通过与value进行self-attn得到dynamic context，最终将static context与dynamic context融合起来作为最终的输出从上..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。