RoFormerV2：自然语言理解的极限探索-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124007933

RoFormerV2是基于RoFormer的改进版，旨在在同一参数量下实现性能最大化。通过结构简化，如移除Bias项和使用RMS Norm，以及从零开始的无监督和有监督多任务预训练，RoFormerV2在CLUE榜单上取得优秀成绩，尤其是在3亿参数量级别上超越多个10亿+参数量的模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

大概在 1 年前，我们提出了旋转位置编码（RoPE），并发布了对应的预训练模型 RoFormer [1]。随着时间的推移，RoFormer 非常幸运地得到了越来越多的关注和认可，比如 EleutherAI 新发布的 60亿 [2] 和 200亿 [3] 参数的 GPT 模型中就用上了 RoPE 位置编码，Google 新提出的 FLASH 模型论文中则明确指出了 RoPE 对 Transformer 效果有明显的提升作用。

与此同时，我们也一直在尝试继续加强 RoFormer 模型，试图让 RoFormer 的性能“更上一层楼”。经过近半年的努力，我们自认为取得了还不错的成果，因此将其作为“RoFormerV2”正式发布：

Github：

https://github.com/ZhuiyiTechnology/roformer-v2

极限探索

在预训练模型兴起之后，不少研究人员都对一个问题相当感兴趣：预训练模型的极限在哪里？当然，“极限”这个词含义很丰富，以 GPT3 为代表的一系列工作试图探索的是参数量、数据量的极限，而微软近来提出的 DeepNet 则探究的是深度的极限。对于我们来说，我们更想知道同一参数量下的性能极限，试图最充分地“压榨”预训练模型的性能，RoFormerV2 正是这一理念的产物。

简单来说，RoFormerV2 先在 RoFormer 的基础上对模型结