​下一代Transformer:RetNet结构可视化及Vision RetNet展望

2d7d5df30d427ed1f8ef7493524aad63.gif

©PaperWeekly 原创 · 作者 | 岳廷

微软和清华大学的研究人员在论文《Retentive Network: A Successor to Transformer for Large Language Models》中提出了一种新的模型架构 RetNet,同时实现 Transformer 模型的高效并行训练、低延迟高吞吐量的推理以及良好的建模性能,被誉为“打破不可能三角形”。

ab9985390687e524356be6165c15bfd7.png

论文链接:

https://arxiv.org/pdf/2307.08621.pdf

代码链接:

https://github.com/microsoft/unilm/tree/master/retnet

本文将详细介绍 RetNet 的技术原理、实验结果以及未来在 CV 领域应用前景展望。

796a09ed4baf725051b507de7e5cffa4.png

4b6f358f0184cc5f1247eb3684ddc8e9.png

411377ad7be1ed9193aa2823b450f57a.png

RetNet技术原理

RetNet 的核心创新在于提出了一种新的序列建模机制——多尺度保留(Multi-Scale Retention,MSR)其核心为 Retention 机制,而 Retention 机制又可以表示为并行形式、递归形式和分块递归形式三种计算范式。Retnet 整体结构见下图:

93ef0cc5d9ba32e1687d228d4c1d0d99.png

1.1 保留(Retention)机制

Retention 机制是 RetNet 的关键组成部分。给定输入序列 ,, 是隐含层维度。

通过投影操作 ,将其映射到一维函数。再考虑一个序列建模的映射问题 。

将 通过 映射到 。为简单起见 , 表示 .

以循环迭代的方式建立映射关系:

2ce7dcee71cc6bba2d12f8250be75ff2.png

e5ee65e907b7357e59ff68eb604c036e.png

其中 A 是对角矩阵, 是内容相关投影向量:

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值