Contextual Transformer Networks for Visual Recognition论文以及代码解析

最新推荐文章于 2023-03-02 07:12:31 发布

从现在开始壹并超

最新推荐文章于 2023-03-02 07:12:31 发布

阅读量2.5k

点赞数 1

分类专栏：计算机视觉网络模型-图像分类&目标检测文章标签： transformer 深度学习计算机视觉 python pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_45971439/article/details/121675636

版权

计算机视觉网络模型-图像分类&目标检测专栏收录该内容

10 篇文章 40 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

Contextual Transformer Networks for Visual Recognition

1. Abstract
2. Introduction
3. Approach
4. 代码解析

论文地址： CoTNet
源码地址： CoTNet

1. Abstract

今天来介绍一篇京东AI研究院的一篇基于Transformer的backbone的论文。

论文提出现有的Transformer设计是在二维特征图上使用Attention，来获得在每个空间位置上的孤立的query和key的注意力矩阵，但是相邻之间的key的上下文信息并没有被充分考虑到。本文提出一种新的Transformer机制说的很玄乎，其实就是一种新的self-Attention机制，即论文中提出的CoT block。该block充分利用了输入key之间的上下文关系，来指导动态注意力矩阵的学习，从而增加了视觉表示的能力，用于各种视觉任务上。
CoT block的实现：首先对输入的feature map使用3x3conv进行上下文编码，得到输出feature的静态上下文表示；其次将这个static key与输入feature map进行concat操作，进行两个连续的1x1conv来得到动态的multi-head attention matrix，然后将这个动态注意力矩阵与输入value矩阵进行相乘得到动态的上下文表示；最后将动态特征表示与第一步得到的静态特征表示进行特征融合得到该block的输出。
其实这篇论文的工作与之前的一篇论文Bottleneck Transformers for Visual Recognition非常相似，因为都是用来替换

了解本专栏

超级会员免费看

从现在开始壹并超

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Contextual Transformer Networks for Visual Recognition论文以及代码解析

Contextual Transformer Networks for Visual Recognition 1. Abstract2. Introduction3. Approach3.1. Multi-head Self-attention in Vision Backbones3.2. Contextual Transformer Block3.3. Contextual Transformer Networks4. 代码解析4.1. train脚本中参数的配置4.2. model脚本4.2.1.
复制链接

扫一扫

专栏目录

从现在开始壹并超

博客等级

码龄5年

60
原创

161
点赞

414
收藏

857
粉丝

关注

私信

热门文章

分类专栏

最新评论

Linux上搭建ElasticSearch-8.x集群以及安装Kibana（保姆级安装教程）
m0_45896506: 老哥我按照你这个进行设置，说我是单节点集群，你有遇到这个问题吗
Conformer论文以及代码解析(下)
从现在开始壹并超: 卷积层权重维度不匹配吧，权重要求是4-d的，你的输入是3-d的，你扩充一个维度再试试
Conformer论文以及代码解析(下)
weixin_49138334: 你好我想问一下，为什么那个conformer我的总报这个错 RuntimeError: Expected 4-dimensional input for 4-dimensional weight [64, 3, 7, 7], but got 3-dimensional input of size [3, 224, 224] instead 我用的是花分类的数据集，改好尺寸后，现在输出的张量形状都是 ([1, 3, 224, 224])，他说输入给卷积层的张量形状不正确。我应该怎么改呀
Conformer论文以及代码解析(下)
从现在开始壹并超: main.py中-device参数对应的是训练设备类型，默认值是cuda，应该是不支持CPU来训练的。另外，对于Transform模型的训练，由于params和float都比比较大，CPU内存感觉不一定够，还是建议用GPU来训练好一点
Conformer论文以及代码解析(下)
weixin_49138334: 请问这个代码可以用CPU运行吗，需要怎么改

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

从现在开始壹并超 你的鼓励，我们就是hxd

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。