©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络
大概在 1 年前,我们提出了旋转位置编码(RoPE),并发布了对应的预训练模型 RoFormer [1]。随着时间的推移,RoFormer 非常幸运地得到了越来越多的关注和认可,比如 EleutherAI 新发布的 60亿 [2] 和 200亿 [3] 参数的 GPT 模型中就用上了 RoPE 位置编码,Google 新提出的 FLASH 模型论文中则明确指出了 RoPE 对 Transformer 效果有明显的提升作用。
与此同时,我们也一直在尝试继续加强 RoFormer 模型,试图让 RoFormer 的性能“更上一层楼”。经过近半年的努力,我们自认为取得了还不错的成果,因此将其作为“RoFormerV2”正式发布:
Github:
https://github.com/ZhuiyiTechnology/roformer-v2
极限探索
在预训练模型兴起之后,不少研究人员都对一个问题相当感兴趣:预训练模型的极限在哪里?当然,“极限”这个词含义很丰富,以 GPT3 为代表的一系列工作试图探索的是参数量、数据量的极限,而微软近来提出的 DeepNet 则探究的是深度的极限。对于我们来说,我们更想知道同一参数量下的性能极限,试图最充分地“压榨”预训练模型的性能,RoFormerV2 正是这一理念的产物。
简单来说,RoFormerV2 先在 RoFormer 的基础上对模型结