当下一代Transformer遇上ViT：Vision RetNet已来！

最新推荐文章于 2024-09-14 19:18:15 发布

PaperWeekly

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量2.7k

点赞数 2

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/133692406

版权

©PaperWeekly 原创 · 作者 | 岳廷

论文标题：

RMT: Retentive Networks Meet Vision Transformers

论文链接：

https://arxiv.org/pdf/2309.11523.pdf

要解决的问题：前不久来自微软的研究人员刚提出了 RetNet，一个被誉为“打破不可能三角形”的模型架构，即高并行训练度，低推理延迟，以及高性能，但该模型主要用于 NLP。详细的 RetNet 介绍可参考下一代Transformer：RetNet结构可视化及Vision RetNet展望。

▲ RetNet 论文中的“不可能三角”

解决方案：来自中科院的研究团队提出 RMT，一种 RetNet 和 Vision Transformer 结合的解决方案，RetNet 引入了显式衰减机制，使得模型能够根据空间距离的先验知识对不同的 token 进行不同程度的注意力。RMT 在视觉主干网络中加入了显式衰减，同时为了降低全局建模的计算代价，将建模过程沿着图像的两个坐标轴进行分解。

实现的效果：大量实验结果证明提出的 RMT 在各种计算机视觉任务中展现出的卓越性能，例如，在 ImageNet-1K 数据集上，RMT 只用 4.5G FLOPs 就达到了 84.1% 的 Top-1 准确率。在所知的模型中，相似大小和训练策略下，RMT 达到了最高的 Top-1 准确率。此外，RMT 在下游任务中如目标检测、实例分割和语义分割中也明显优于现有的视觉骨干网络（特别是在目标检测网络中具有显著优势）。效果示意如下：