【笔记】大模型长度外推技术 NTK-Aware Scaled RoPE

DaLi Yao

已于 2024-10-28 21:23:39 修改

阅读量1.1k

点赞数 24

文章标签：笔记线性代数人工智能语言模型矩阵

于 2024-10-28 21:16:50 首次发布

本文链接：https://blog.csdn.net/m0_53162279/article/details/143311234

版权

NTK-Aware Scaled RoPE

正弦编码(Sinusoidal)
旋转位置编码RoPE
- 编码步骤：
- 旋转位置编码的优势
NTK-Aware Scaled RoPE
总结
参考：

长度外推技术是自然语言处理（NLP）领域中，特别是在处理长文本数据时，一个重要的研究方向。这项技术旨在使模型能够在较短的上下文窗口上进行训练，并在较长的上下文窗口上进行推理，即处理超出其训练时所见文本长度的序列。

正弦编码(Sinusoidal)

详细介绍：正弦编码(Sinusoidal)
我们知道正弦编码有以下特点：

具有相对位置表达能力：Sinusoidal可以学习到相对位置，对于固定位置距离的k，PE(i+k)可以表示成PE(i)的线性函数。
两个位置向量的内积只和相对位置 k 有关。
Sinusoidal编码具有对称性。
随着k的增加，内积的结果会直接减少，即会存在远程衰减。
正弦编码不具备外推性。

虽然Sinusoidal只和相对位置有关。但是实际的Attention计算中还需要与attention的权重 $W$ 相乘，即 $PE^T_tW^T_qW_kPE_{t+k}$ ,这时候内积的结果就不能反映相对位置。

假设位置 $m$ 的位置编码为 $p_m$ ,位置n的位置编码为 $p_n$ ，如果使用正弦编码，那两个位置之间的 $a tt e n t i o n$ 可以表达为：
$<f_q(x_m,m), f_k(x_n, n)> = q_mk^T_m=(x_m+p_m)W_qW^T_k(x_n+p_n)^T=\\x_mW_qW^T_kx^T_n+x_mW_qW^T_kp^T_n+p_mW_qW^T_kx^T_n+p_mW_qW^T_kp^T_n \tag{1}$