【YOLOv10改进-注意力机制】STA(Super Token Attention) 超级令牌注意力机制

YOLO大师

已于 2024-07-20 10:07:51 修改

阅读量54

点赞数

分类专栏： YOLOv10 创新改进有效涨点文章标签： YOLO 目标检测人工智能论文阅读 yolov10

于 2024-07-08 21:51:27 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140279826

版权

YOLOv10 创新改进有效涨点专栏收录该内容

66 篇文章 5 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

YOLOv10目标检测创新改进与实战案例专栏

改进目录: YOLOv10有效改进系列及项目实战目录：卷积，主干注意力，检测头等创新机制

专栏链接: YOLOv10 创新改进有效涨点

介绍

摘要

视觉Transformer在许多视觉任务上展示了卓越的性能。然而，它在浅层捕获局部特征时可能会面临高度冗余的问题。因此，使用了局部自注意力或早期阶段的卷积来减少这种冗余，但这牺牲了捕获长距离依赖的能力。一个挑战随之而来：在神经网络的早期阶段，我们是否能高效且有效地进行全局上下文建模？为解决这一问题，我们从超像素的设计中获得启示，这种设计通过减少图像基元的数量来简化后续处理，并在视觉Transformer中引入了超级令牌。超级令牌旨在为视觉内容提供有意义的语义分割，这样既减少了自注意力中的令牌数量，也保留了全局建模能力。具体而言，我们提出了一种简单而有效的超级令牌注意力（STA）机制，它包括三个步骤：首先通过稀疏关联学习从视觉令牌中抽取超级令牌，接着对这些超级令牌进行自注意力处理，最后将它们映射回原始的令牌空间。STA通过将普通的全局注意力分解为稀疏关联图与低维度注意力的乘积，极大地提高了捕获全局依赖的效率。基于STA，我们开发了一个层次化的视觉Transformer。广泛的实验显示了它在各种视觉任务上的强大性能。特别是，在没有任何额外训练数据或标签的情况下，它在ImageNet-1K上实现了86.4%的顶级准确率，以及在COCO检测任务上达到53.9的盒AP和46.8的掩码AP，在ADE20K语义分割任务上实现了51.9的mIOU。

创新点

引入超级标记（super tokens）：通过引入超级标记的概念，实现了在视觉Transformer中的全局上下文建模。超级标记将原始标记聚合成具有语义意义的单元，从而减少了自注意力计算的复杂度，提高了全局信息的捕获效率。
Super Token Attention（STA）机制：提出了一种简单而强大的超级标记注意力机制，包括超级标记采样、多头自注意力和标记上采样等步骤。STA通过稀疏映射和自注意力计算，在全局和局部之间实现了高效的信息交互，有效地学习全局表示。
Hierarchical Vision Transformer：设计了一种层次化的视觉Transformer结构，结合了卷积层和超级标记Transformer块，以在不同层次上实现高效和有效的表示学习。这种结构在各种视觉任务上展现了出色的性能，包括图像分类、目标检测和语义分割等。

了解本专栏

超级会员免费看

YOLO大师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【YOLOv10改进-注意力机制】STA(Super Token Attention) 超级令牌注意力机制

视觉Transformer在许多视觉任务上展示了卓越的性能。然而，它在浅层捕获局部特征时可能会面临高度冗余的问题。因此，使用了局部自注意力或早期阶段的卷积来减少这种冗余，但这牺牲了捕获长距离依赖的能力。一个挑战随之而来：在神经网络的早期阶段，我们是否能高效且有效地进行全局上下文建模？为解决这一问题，我们从超像素的设计中获得启示，这种设计通过减少图像基元的数量来简化后续处理，并在视觉Transformer中引入了超级令牌。
复制链接

扫一扫