#今日论文推荐# 超越Swin,百度&港大提出BOAT：双边局部注意力视觉Transformer

最新推荐文章于 2024-09-14 16:45:06 发布

wwwsxn

最新推荐文章于 2024-09-14 16:45:06 发布

阅读量113

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/626b54fa7cb68b460fabbada?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 超越Swin,百度&港大提出BOAT：双边局部注意力视觉Transformer

在这项研究中，来自百度研究院和香港大学的研究者重新思考了局部自注意力机制，提出了特征空间局部注意力（feature-space local attention或简称FSLA）。
Vision Transformer 舍弃了 ConvNet 先验信息，通过引入自注意力机制对远距离特征依赖进行建模，提升了模型的表征能力。然而 Vision Transformer 的自注意力机制在图像分辨率较高时，计算复杂度过高。为了克服这个问题，研究人员使用局部窗口计算自注意力，在此称之为图像空间局部注意力（image-space local attention 或简称 ISLA）。尽管基于窗口的图像空间局部注意力显著提升了效率，但仍面临难以捕捉远距离特征依赖的问题。
在这项研究中，来自百度研究院和香港大学的研究者重新思考了局部自注意力机制，提出了特征空间局部注意力（feature-space local attention 或简称 FSLA）。这种局部注意力从图像内容出发，把特征相似的 token 聚成类，并且只在每类特征的内部计算自注意力，相比全局自注意力显著降低了计算量，同时基本保留了原始的全局自注意力机制对远距离特征依赖的建模能力。
为了将特征空间局部注意力与图像空间局部注意力相结合，本文作者进一步提出了双边局部注意力 ViT （简称 BOAT)，把特征空间局部注意力模块加入到现有的基于窗口的局部注意力视觉 Transformer 模型中，作为图像空间局部注意力的补充，大大提升了针对远距离特征依赖的建模能力，在几个基准数据集上的大量实验表明结合了特征空间局部注意力的模型明显优于现有的 ConvNet 和 ViT 模型。

论文题目：BOAT: Bilateral Local Attention Vision Transformer
详细解读：https://www.aminer.cn/research_report/626b54fa7cb68b460fabbada?download=falsehttps://www.aminer.cn/research_report/626b54fa7cb68b460fabbada?download=false
AMiner链接：https://www.aminer.cn/?f=cs