©PaperWeekly 原创 · 作者 | 岳廷
微软和清华大学的研究人员在论文《Retentive Network: A Successor to Transformer for Large Language Models》中提出了一种新的模型架构 RetNet,同时实现 Transformer 模型的高效并行训练、低延迟高吞吐量的推理以及良好的建模性能,被誉为“打破不可能三角形”。
论文链接:
https://arxiv.org/pdf/2307.08621.pdf
代码链接:
https://github.com/microsoft/unilm/tree/master/retnet
本文将详细介绍 RetNet 的技术原理、实验结果以及未来在 CV 领域应用前景展望。
RetNet技术原理
RetNet 的核心创新在于提出了一种新的序列建模机制——多尺度保留(Multi-Scale Retention,MSR),其核心为 Retention 机制,而 Retention 机制又可以表示为并行形式、递归形式和分块递归形式三种计算范式。Retnet 整体结构见下图:
1.1 保留(Retention)机制
Retention 机制是 RetNet 的关键组成部分。给定输入序列 ,, 是隐含层维度。
通过投影操作 ,将其映射到一维函数。再考虑一个序列建模的映射问题 。
将 通过 映射到 。为简单起见 , 表示 .
以循环迭代的方式建立映射关系:
其中 A 是对角矩阵, 是内容相关投影向量: