当下一代Transformer遇上ViT:Vision RetNet已来!

b9b514709854db98c585e4e1653ad578.gif

©PaperWeekly 原创 · 作者 | 岳廷

83b22ae525bfa35cf29d61f54aa305ed.png

论文标题:

RMT: Retentive Networks Meet Vision Transformers

论文链接:

https://arxiv.org/pdf/2309.11523.pdf

要解决的问题:前不久来自微软的研究人员刚提出了 RetNet,一个被誉为“打破不可能三角形”的模型架构,即高并行训练度,低推理延迟,以及高性能,但该模型主要用于 NLP。详细的 RetNet 介绍可参考下一代Transformer:RetNet结构可视化及Vision RetNet展望

d8b8d44fdfa2603cdce387a1a686f688.png

▲ RetNet 论文中的“不可能三角”

解决方案:来自中科院的研究团队提出 RMT,一种 RetNet 和 Vision Transformer 结合的解决方案,RetNet 引入了显式衰减机制,使得模型能够根据空间距离的先验知识对不同的 token 进行不同程度的注意力。RMT 在视觉主干网络中加入了显式衰减,同时为了降低全局建模的计算代价,将建模过程沿着图像的两个坐标轴进行分解。

实现的效果:大量实验结果证明提出的 RMT 在各种计算机视觉任务中展现出的卓越性能,例如,在 ImageNet-1K 数据集上,RMT 只用 4.5G FLOPs 就达到了 84.1% 的 Top-1 准确率。在所知的模型中,相似大小和训练策略下,RMT 达到了最高的 Top-1 准确率。此外,RMT 在下游任务中如目标检测、实例分割和语义分割中也明显优于现有的视觉骨干网络(特别是在目标检测网络中具有显著优势)。效果示意如下:

af790e2c1655e252eca38a7886bb2b15.png

额外:单看 RetNet 论文数据,RetNet 潜力很大,RetNet 论文放出 3 个月,中科院已有 Vision Transformer 模型架构放出,足以见该方案潜力很大!相信后续还会有更多 RetNet 尝试方案出来。另外,RMT 论文方案还在进行中,后续可能还会有新的数据持续放出。

58b982cf502ddc5a6498bea3de35c0d7.png

方法

1.1 前言

Retentive Network: 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值