Focal Self-attention for Local-Global Interactions inVision Transformers

最新推荐文章于 2022-11-19 14:45:00 发布

Yunpeng1119

最新推荐文章于 2022-11-19 14:45:00 发布

阅读量691

点赞数

分类专栏： model Transformer 文章标签：计算机视觉深度学习目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaomjc/article/details/126897969

版权

1. 背景介绍：Transformer 的成功和特点。

最近，Vision Transformer 及其变体在各种计算机视觉任务中显示出了巨大的前景。通过自注意力捕捉短距离和长距离视觉依赖的能力是成功的关键。

2. 研究动机：Transformer 在 CV 中的问题，现有方法怎么解决的，但这些方法又存在什么问题。

但它由于二次方计算复杂度，特别是对高分辨率视觉任务 (例如，目标检测) 提出了巨大挑战。最近的许多工作都试图通过应用粗粒度的全局注意力或细粒度的局部注意力来降低计算和内存成本并提高性能。然而，这两种方法都削弱了多层变压器原始自注意机制的建模能力，从而导致次优解决方案。

3. 研究方法：核心思想，具体方法，应用范畴。

本文提出了 focal self-attention，这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。

在这个新的机制中，每个 token 以细粒度关注其最近的周围 token，以粗粒度关注其远的周围 token，从而可以有效地捕获短期和长期的可视依赖关系。

基于焦点自注意，提出了 focal Transformer，在一系列公共图像分类和目标检测基准上实现了优于先进的 (SoTA) ViT 的性能。

4. 实验结果：在图像分类，目标识别，语义分割对结果。

图像分类方面，Focal Transformer 模型的中等尺寸为 51.1M，较大尺寸为 89.8M，在 224 × 224 的 ImageNet 分类精度上分别达到 83.5% 和 83.8% 的 Top-1 精度。

目标检测方面，当 Focal Transformer 被用作 backbone 时，在 6 种不同的目标检测方法上，Focal Transformer 比当前的 SoTA Swin Transformer [44]实现了一致和实质性的改进。

语义分割方面，最大的 Focal Transformer 在 COCO mini-val/test-dev上产生58.7/58.9 box mAPs 和 50.9/51.3 mask mAPs，在 ADE20K上产生 55.4 mIoU，在三个最具挑战性的计算机视觉任务上创建新的SoTA。

ViT 大趋势：

目前，Transformer 已成为自然语言处理

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Focal Self-attention for Local-Global Interactions inVision Transformers

本文提出了 focal self-attention，这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。在这个新的机制中，每个 token 以细粒度关注其最近的周围 token，以粗粒度关注其远的周围 token，从而可以有效地捕获短期和长期的可视依赖关系。基于焦点自注意，提出了 focal Transformer，在一系列公共图像分类和目标检测基准上实现了优于先进的 (SoTA) ViT 的性能。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。