note 文章目录 note 零、位置编码 一、扩展LLM的Context长度 1. 常见方法 2. PCW方法 二、NBCE方法 三、RoPE方法 四、FlashAttention方法 Reference 零、位置编码 我们都知道在经典的transformer模型中,输入的文本序列经过embedding层,为每个token转为对应向量表示后,还需要对词嵌入加入位置编码进行上下文语义的建模。为了得到不同位置对应的编码,transformer模型使用不同频率的正余弦函数(其中POS表示单词所在的位置,2i和2i+1表示位置编码向量中对应的维度,d是对应位置编码向量的总维度): PE ( pos