RoPE(Rotary Position Embedding)通过将输入向量在每个位置上进行旋转变换,将位置信息编码进向量表示中。旋转角度随着位置(m)和维度(k)的变化而变化,这使得模型能够捕捉到序列中的相对位置信息。 一、最简单场景:dim=2 import torch # 示例使用 batch_size = 1 seq_len = 3 D = 2 # 嵌入维度,必须为偶数,此处为了方便解释,设置为2 x = t