【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers

论文标题:LocalViT: Bringing Locality to Vision Transformers

论文链接:https://arxiv.org/abs/2104.05707v1

论文代码:https://github.com/ofsoundof/LocalViT

发表时间: 2021年4月

Abstract

我们研究了如何将局部性机制引入 Vision Transformer中。Transformer 网络起源于机器翻译,特别擅长对长序列内的远程依赖关系进行建模。尽管可以通过 Transformer 的自我注意机制很好地模拟令牌嵌入之间的全局交互,但缺少用于本地区域内信息交换的本地机制。然而,位置对于图像至关重要,因为它涉及诸如线条,边缘,形状甚至对象之类的结构。

我们通过在前馈网络中引入深度卷积来为视觉变换器添加局部性。这个看似简单的解决方案的灵感来自前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证:

1)广泛的设计选择(激活函数、层放置、扩展比)可用于合并局部性机制,所有适当的选择都可以导致在基线上的性能提升

2)相同的局部性机制成功应用于4个 Vision Transformer,显示了局部性概念的泛化。特别是对于 ImageNet-2012 分类,局部增强转换器的性能优于 DeiT-T 和 PVT-T ,2.6% 和 3.1%,而参数数量和计算量的增加可以忽略不计

Method

Input interpretation

从不同角度可视化 Transformer 中的前馈网络

(a) 输入被视为一个令牌序列

(b) 一个等效的观点是仍然将标记重新排列为 2D 点阵

Locality

由于仅对特征图应用了 1×1 卷积,因此相邻像素之间缺乏信息交互

此外,transformer 的自注意力部分仅捕获所有令牌之间的全局依赖关系

因此,transformer 块没有一种机制来模拟附近像素之间的局部依赖关系

故, (c) 将局部性机制引入转换器的最终使用网络之间的比较

“DW”表示深度卷积。 为了应对卷积操作,在(c)中通过“Seq2Img”和“Img2Seq”添加了序列和图像特征图之间的转换

Experiments

实验目标:不同 CNN 和 ViT 的图像分类结果。为四个不同的 ViT 启用了 Local 功能

实验结果:启用 Local 后的 ViT 效果均有明显提升

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值