【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers

来自γ星的赛亚人

已于 2022-04-21 08:41:23 修改

阅读量5k

点赞数 3

分类专栏： Vision Transformer 论文笔记文章标签：深度学习神经网络 transformer 人工智能计算机视觉

于 2022-03-28 14:59:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58678659/article/details/123793886

版权

论文笔记同时被 2 个专栏收录

47 篇文章 7 订阅

订阅专栏

Vision Transformer

19 篇文章 12 订阅

订阅专栏

论文标题：LocalViT: Bringing Locality to Vision Transformers

论文链接：https://arxiv.org/abs/2104.05707v1

论文代码：https://github.com/ofsoundof/LocalViT

发表时间： 2021年4月

Abstract

我们研究了如何将局部性机制引入 Vision Transformer中。Transformer 网络起源于机器翻译，特别擅长对长序列内的远程依赖关系进行建模。尽管可以通过 Transformer 的自我注意机制很好地模拟令牌嵌入之间的全局交互，但缺少用于本地区域内信息交换的本地机制。然而，位置对于图像至关重要，因为它涉及诸如线条，边缘，形状甚至对象之类的结构。

我们通过在前馈网络中引入深度卷积来为视觉变换器添加局部性。这个看似简单的解决方案的灵感来自前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证：

1）广泛的设计选择（激活函数、层放置、扩展比）可用于合并局部性机制，所有适当的选择都可以导致在基线上的性能提升

2）相同的局部性机制成功应用于4个 Vision Transformer，显示了局部性概念的泛化。特别是对于 ImageNet-2012 分类，局部增强转换器的性能优于 DeiT-T 和 PVT-T ，2.6% 和 3.1%，而参数数量和计算量的增加可以忽略不计

Method

Input interpretation

从不同角度可视化 Transformer 中的前馈网络

(a) 输入被视为一个令牌序列

(b) 一个等效的观点是仍然将标记重新排列为 2D 点阵

Locality

由于仅对特征图应用了 1×1 卷积，因此相邻像素之间缺乏信息交互

此外，transformer 的自注意力部分仅捕获所有令牌之间的全局依赖关系

因此，transformer 块没有一种机制来模拟附近像素之间的局部依赖关系

故， (c) 将局部性机制引入转换器的最终使用网络之间的比较

“DW”表示深度卷积。为了应对卷积操作，在（c）中通过“Seq2Img”和“Img2Seq”添加了序列和图像特征图之间的转换

Experiments

实验目标：不同 CNN 和 ViT 的图像分类结果。为四个不同的 ViT 启用了 Local 功能

实验结果：启用 Local 后的 ViT 效果均有明显提升

来自γ星的赛亚人

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

来自γ星的赛亚人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。