旋转位置编码具有良好的外推性,即模型在预测时可以处理比训练时数据更长的序列。下面是具体的推导过程: https://zhuanlan.zhihu.com/p/642884818 参考 一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding)十分钟读懂旋转编码(RoPE)旋转矩阵