阅读文献：VOLO: Vision Outlooker for Visual Recognition

最新推荐文章于 2023-08-24 20:10:41 发布

MRzzyy

最新推荐文章于 2023-08-24 20:10:41 发布

阅读量802

点赞数 1

分类专栏：文献阅读

本文链接：https://blog.csdn.net/MRzzyy/article/details/118293328

版权

文献阅读专栏收录该内容

13 篇文章 0 订阅

订阅专栏

VOLO: Vision Outlooker for Visual Recognition

1.四个问题
要解决什么问题

提高图像分类精度，缩小Transformer于CNN之间的差距

用什么方法解决

提出了一种新的轻量级注意力机制：Outlooker，能够高效地编码精细级别的信息。
基于Outlooker，提出了VOLO，一种用于视觉识别的强大的模型架构。VOLO采用两阶段架构设计，同时考虑了更具细粒度的标记表示编码和全局信息聚合

效果如何

在ImageNet上达到了84.2%的top-1准确率。
当模型大小扩展到296M时，在ImageNet上87.1%、ImageNet-ReaL上90.6%、ImageNetV上78.0%的top-1准确率

还存在什么问题

模型结构变化时，训练开销的增多高于收益

论文简介
摘要： 多年来，视觉识别一直由卷积神经网络 (CNN) 主导。尽管最近流行的视觉变换器 (ViT) 在 ImageNet 分类中显示出基于自注意力模型的巨大潜力，但如果不提供额外数据，它们的性能仍然不如最新的 SOTA CNN。在这项工作中，我们的目标是缩小性能差距并证明基于注意力的模型确实能够胜过 CNN。我们发现限制 ViTs 在 ImageNet 分类中的性能的主要因素是它们在将精细特征编码到标记表示中的效率低下。为了解决这个问题，我们引入了一种新颖的前景注意力，并提出了一种简单而通用的架构，称为 Vision Outlooker (VOLO)。与专注于粗略全局依赖性建模的自注意力不同，前景注意力旨在将更精细级别的特征和上下文有效地编码到标记中，这对识别性能至关重要，但在很大程度上被自注意力所忽略。实验表明，我们的 VOLO 在 ImageNet-1K 分类上达到了 87.1% 的 top-1 准确率，是第一个在此竞争基准上超过 87% 准确率的模型，而无需使用任何额外的训练数据。此外，预训练的 VOLO 可以很好地转移到下游任务，例如语义分割。我们在 cityscapes 验证集上取得了 84.3% 的 mIoU 分数，在 ADE20K 验证集上取得了 54.3% 的分数。代码可在 https://github.com/sail-sg/volo 获得

网络模型

Outlook attention
在这里插入图片描述
Dense Aggregation
outlook 注意力将特征进行聚集映射，即将同一位置的不同加权值相加得到输出：
具体代码如下:

实验结果

作者将提议的 VOLO 与表 4 中文献中的最新模型进行比较。列出的所有结果都基于纯 ImageNet-1k 图像，并且没有使用额外的训练数据。 “Top-1”、“Real Top-1”和“V2 Top-1”分别指原始 ImageNet 验证标签、清理后的真实标签和 ImageNetV2 标签。
“训练大小”和“测试大小”表示训练和微调（CNN 测试）中使用的分辨率。作者根据模型大小（参数数量）将结果分为五个部分。
在这里插入图片描述
从 LV-ViT-S 基线到 VOLO-D1 的实验路径和相应的结果可以在表 5 中找到

首先用两个 Outlooker 替换前两个转换器，并观察到参数较少时性能没有下降。由于 Outlooker 的目标是编码表达性更精细的特征，然后调整起始补丁嵌入模块并将补丁大小从 16 × 16 更改为 8 × 8。因此，总共有 28 × 28 个输入标记。在 Outlookers 之后，添加了另一个补丁嵌入模块，输出 14×14 个令牌，然后将其输入到后续的转换器中。从表 5 的第三行可以看出，在已经达到 83.3% top-1 准确率的基线的基础上，这种轻微的调整带来了 0.4% 的收益。添加另外两个 Outlooker 进一步将性能提高到 83.9%。最后，将所有变压器的磁头数从 6 改为 12 并在 384 × 384 分辨率下对生成的模型进行微调，使其能够获得 85.2% 的性能，据我们所知，这是第一个达到 85+ 的模型 % 精度在小于 30M 的参数内。