一、目录
- 定义
- 如何提高模型的外推能力?
- 分类
- 测评方法
- 各技术点,以及应用模型,优缺点
- 支持模型长上下文的方案「NTK-aware interpolation」的思路是什么?
- LLM长度外推方案NTK-by-parts的思路是什么?
- LLM长度外推方案YaRN是怎做的?
二、实现
-
定义:什么是长度外推性?
长度外推性=短文本训练,长文本预测 -
如何提高模型的外推能力?
寻找或设计合适的位置编码(典型如RoPE);
设计局部注意力机制(局部attention)。 -
分类
一类是事后修改,这类方法的特点是直接修改推理模型,无需微调就能达到一定的长度外推效果,但缺点是它们都无法保持模型在训练长度内的恒等性;
比如NTK-RoPE、YaRN、ReRoPE,KeyNorm等,
另一类自然是事前修改,它们可以不加改动地实现一定的长度外推,但相应的改动需要在训练之前就引入,因此无法不微调地用于现成模型,并且这类方法是否能够Scale Up还没得到广泛认可。
如ALIBI、KERPLE、XPOS以及HWFA等 -
测评方法
-
各技术点,以及应用模型,优缺点
参考:https://zhuanlan.zhihu.com/p/670280576
PoPE: 旋转位置编码
PoPE旋转位置编码具有远程衰减的特性,