ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

DeepHao

已于 2025-03-03 16:49:22 修改

阅读量440

点赞数 13

文章标签： transformer 深度学习 RoPE

于 2025-02-25 20:54:25 首次发布

本文链接：https://blog.csdn.net/qq_39567427/article/details/145858737

版权

主要贡献：提出了 RoPE 旋转位置编码，并将该编码方式应用在Bert、Performer等模型上，取得了更好的效果
参考：作者blog
论文：https://arxiv.org/pdf/2104.09864

研究背景

在 NLP 中，单词的位置顺序对整体语句的语义信息至关重要，例如：“你爱我” 和 “我爱你”表达的语义信息相差甚选；
Transformer 中 self-attention 的计算方式至与 token 相关，而与位置无关，相同 token 在不同位置与同一 token 的计算结果完全相同，因此需要位置编码提供位置信息；
现有的位置编码方式（绝对位置编码/相对位置编码）都是直接加在 token 上，不太适合线性 self-attention 的计算方式【作者 kindly argue，我认为可能是线性运算可能无法有效捕获通过 add 操作的位置编码信息，因为位置编码信息和 token 应该具有不同的语义表征，不应该使用相同的计算范式，并且一般提取更有效的信息，往往需要添加非线性操作】

RoPE (Rotary Position Embedding)

RoPE 计算逻辑

self-attention 的计算逻辑如下：

设 ${\mathbb{S}}_{N} = \{w_{i}\}_{i = 1}^{N}$ 为包含 $N$ 个输入词元的序列，其中 $w_i$ 表示第 $i$ 个元素， $\mathbb{S}_N$ 对应的词嵌入表示为 $\mathbb{E}_{N} = \{x_{i}\}_{i = 1}^{N}$ ， $x_{i} \in \mathbb{R}^{d}$ 表示 token $w_i$ 对应的 $d$ 纬度词向量，根据 $\mathbb{E}_{N}$ 的书写规范，这里设定 $w_i$ 为列向量；
将位置信息加到词向量上，即 $x_i+p_i$ ，其中 $p_i$ 对应位置 $i$ 的位置编码信息；
然后构建三个映射关系 $f_q$ 、 $f_k$ 、 $f_v$ 用于融合位置信息；
$\begin{array}{rlrl} q_{m} &= f_{q}(x_{m}, m) & \\ k_{n} &= f_{k}(x_{n}, n) & & \\ v_{n} &= f_{v}(x_{n}, n) & \\ \end{array}$
三个映射逻辑如下
$f_{t:t\in\{q, k, v\}}(x_i, i)=W_{t:t\in{q,k,v}}(x_i+p_i)$ 其中 $q_m$ 、 $k_n$ 、 $v_n$ 分别通过 $f_q$ 、 $f_k$ 、 $f_v$ 融入了第 $m$ 和第 $n$ 个位置的信息
然后 query 和 key 用于计算 attention weight，并归一化输出
$\begin{aligned} a_{m,n} = \frac{\exp\left(\frac{q_{m}^{\top}k_{n}}{\sqrt{d}}\right)}{\sum_{j = 1}^{N}\exp\left(\frac{q_{m}^{\top}k_{j}}{\sqrt{d}}\right)} & \\ o_{m} = \sum_{n = 1}^{N}a_{m,n}v_{n} & \\ \end{aligned}$

RoPE 逻辑推导

query 和 key 通过点积运算 $\left<･\right>$ 计算两个向量的相似度，构建一个映射 $g (･)$ 满足如下关系，其输入为位置 $m$ 、 $n$ 对应的 token embedding 及其相对位置 $m - n$ ，因此我们只需要求解映射 $g (･)$ 即可
$\left< f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)\right>=g\left(x_{m}, x_{n}, m-n\right) ..........(11)$
可以找到如下映射 $f_q(･)$ 、 $f_k(･)$ 、 $g (･)$ 满足公式 (11) ，以二维为例，即 $x_m$ 、 $x_n$ 可以在二维直角坐标系中通过坐标对进行描述，其中横轴为实轴，纵轴为虚轴， $\theta \in \mathbb {R}$ 是一个预设的非零常数：
$\begin{aligned} f_{q}\left(x_{m}, m\right) & =\left(W_{q} x_{m}\right) e^{i m \theta}\\ f_{k}\left(x_{n}, n\right) & =\left(W_{k} x_{n}\right) e^{i n \theta}\\ g\left(x_{m}, x_{n}, m - n\right) & =Re\left[\left(W_{q} x_{m}\right)\left(W_{k} x_{n}\right)^{*} e^{i(m - n) \theta}\right] \end{aligned}$

这里在二维条件进行简易证明

假设 $z_1=a+b*i=(a,b)$ 、 $z_2=c+d*i=(c,d)$ ，那么 $\left<z_1, z_2\right>=ac+bd$ ，又 $z_1 * z_2^{*}=(a+b*i)*(c+d*i)^*=(a+b*i)*(c-d*i)=ac+(bc-ad)*i + bd$ ，因此 $Re[z_1 * z_2^*]=ac + bd=\left<z_1, z_2\right>$ ，其中 $z_2^*$ 称为 $z_2$ 的共轭复数

根据欧拉公式 $\{{e^{i*m\theta}}\}^{*}=\{cos(m\theta)+i*sin(m\theta)\}^*=cos(m\theta)-i*sin(m\theta)=cos(-m\theta) + i*sin(-m\theta)=e^{i*(-m\theta)}=e^{-i*m\theta}$

根据上述证明条件，并且复数运算满足交换律，我们可以对 $g\left(x_{m}, x_{n}, m - n\right)$ 的正确性进行验证
$\begin{aligned} \left< f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)\right> &= \mathrm{Re}\left[\left(W_{q} x_{m}\right) e^{i m \theta} \cdot \left\{\left(W_{k} x_{n}\right) e^{i n \theta}\right\}^*\right] \\ &= \mathrm{Re}\left[\left(W_{q} x_{m}\right) e^{i m \theta} \cdot \left\{e^{i n \theta}\right\}^* \cdot \left(W_{k} x_{n}\right)^*\right] \\ &= \mathrm{Re}\left[\left(W_{q} x_{m}\right) e^{i (m - n) \theta} \cdot \left(W_{k} x_{n}\right)^*\right] \\ &= \mathrm{Re}\left[\left(W_{q} x_{m}\right)\left(W_{k} x_{n}\right)^* e^{i(m - n) \theta}\right] \\ &= g\left(x_{m}, x_{n}, m - n\right) \end{aligned}$
在二维空间，其计算方式如下：
$f_{\{q, k\}}\left(x_{m}, m\right)=\left(\begin{array}{cc} cos m \theta & -sin m \theta \\ sin m \theta & cos m \theta\end{array}\right)\left(\begin{array}{cc} W_{\{q, k\}}^{(11)} & W_{\{q, k\}}^{(12)} \\ W_{\{q, k\}}^{(21)} & W_{\{q, k\}}^{(12)} \end{array}\right)\left(\begin{array}{c} x_{m}^{(1)} \\ x_{m}^{(2)} \end{array}\right)$

设有二维向量 $\vec{v}=(x,y)$ ，现在需要将其旋转 $\theta$ 角，旋转矩阵 $R=\left(\begin{array}{cc} cos \theta & -sin \theta \\ sin \theta & cos \theta\end{array}\right)$ ，旋转后的计算公式则为 $\vec{v'}=R\vec{v}=\left(\begin{array}{cc} cos \theta & -sin \theta \\ sin \theta & cos \theta\end{array}\right)\left(\begin{array}{cc} x \\ y \end{array}\right)$

详细证明过程

这里主要推导如何一步步求解到 $f_q(･)$ 、 $f_k(･)$ 、 $g (･)$ ，参考论文证明过程，这里以二维复平面为例，根据 $q_{m} = f_{q}(x_{m}, m),k_{n} = f_{k}(x_{n}, n)$ ，可以得到：
$q_{m}^{\top} k_{n}=\left< f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)\right>=g\left(x_{m}, x_{n}, n-m\right)..........(12)$ 我们选取 query 和 key 相关的任意两个 embedding，记为 $x_q$ 、 $x_k$ ，则有：
$\begin{array}{ll} q_m=f_{q}\left(x_{q}, m\right) & \\ k_n=f_{k}\left(x_{k}, n\right) & \end{array}$ 我们设定初始条件，当 $m$ 和 $n$ 都等于 $0$ 时：
$\begin{array}{ll} q=f_{q}\left(x_{q}, 0\right), & \\ k=f_{k}\left(x_{k}, 0\right), & \end{array}$ 在二维复平面，任何一点都可以通过模与弧角进行表示，因此可以得到如下表示：
$\begin{aligned} f_{q}\left(x_{q}, m\right) & =R_{q}\left(x_{q}, m\right) e^{i \Theta_{q}\left(x_{q}, m\right)}, \\ f_{k}\left(x_{k}, n\right) & =R_{k}\left(x_{k}, n\right) e^{i \Theta_{k}\left(x_{k}, n\right)}, \\ g\left(x_{q}, x_{k}, n-m\right) & =R_{g}\left(x_{q}, x_{k}, n-m\right) e^{i \Theta_{g}\left(x_{q}, x_{k}, n-m\right)},\end{aligned}..........(※)$ 其中 $R_q(･)$ 、 $R_k(･)$ 、 $R_g(･)$ 分别代表模长， $\Theta_q(･)$ 、 $\Theta_k(･)$ 、 $\Theta_g(･)$ 分别代表弧角，根据公式 (12)，采用对应分量相等（模对应相等、弧角对应相等）的方式，可以得到：
$\begin{aligned} R_{q}\left(x_{q}, m\right) R_{k}\left(x_{k}, n\right) & =R_{g}\left(x_{q}, x_{k}, n-m\right)..........(13a) \\ \Theta_{k}\left(x_{k}, n\right)-\Theta_{q}\left(x_{q}, m\right) & =\Theta_{g}\left(x_{q}, x_{k}, n-m\right)..........(13 b)\end{aligned}$ 同理我们的初始值采用模与弧角可以表示为：
$\begin{aligned} & q=\| q\| e^{i \theta_{q}}=R_{q}\left(x_{q}, 0\right) e^{i \Theta_{q}\left(x_{q}, 0\right)} \\ & k=\| k\| e^{i \theta_{k}}=R_{k}\left(x_{k}, 0\right) e^{i \Theta_{k}\left(x_{k}, 0\right)}\end{aligned}$ 其中 $\| q\|$ 、 $\| k\|$ 、 $\theta_q$ 、 $\theta_k$ 分别表示对应的模和弧角，然后我们设置 $m = n$ ，公式 (13) 可以演变为：
$R_{q}\left(x_{q}, m\right) R_{k}\left(x_{k}, m\right)=R_{g}\left(x_{q}, x_{k}, 0\right)=R_{q}\left(x_{q}, 0\right) R_{k}\left(x_{k}, 0\right)=\| q\| \| k\|..........(14 a)$
$\Theta_{k}\left(x_{k}, m\right)-\Theta_{q}\left(x_{q}, m\right)=\Theta_{g}\left(x_{q}, x_{k}, 0\right)=\Theta_{k}\left(x_{k}, 0\right)-\Theta_{q}\left(x_{q}, 0\right)=\theta_{k}-\theta_{q}..........(14 b)$ 为了简单起见，从(14 a)可以很直观的看到一种解，即：
$\begin{aligned} R_{q}\left(x_{q}, m\right) & =R_{q}\left(x_{q}, 0\right)=\| q\| \\ R_{k}\left(x_{k}, n\right) & =R_{k}\left(x_{k}, 0\right)=\| k\| \\ _{g}\left(x_{q}, x_{k}, n-m\right) & =R_{g}\left(x_{q}, x_{k}, 0\right)=\| q\| \| k\| \end{aligned}$ 仔细观察这组解可以发现，模量映射 $R_q(･)$ 、 $R_k(･)$ 、 $R_g(･)$ 与弧角无关，即与位置信息无关，仅与初始值有关，此外对公式 (14 b) 进行移项可以得到 $\Theta_{q}(x_{q}, m)-\theta_{q}=\Theta_{k}(x_{k}, m)-\theta_{k}$ ，即 query 和 key 的弧角映射与 query 和 key 无关，仅仅与其位置 $m$ 和 embedding $x_{\{q,k\}}$ 相关，并且能够得到 $\Theta_q(･)=\Theta_k(･)$ ，我们将这两种映射统一定义为 $\Theta_f(･)$ ，即 $\Theta_f(･)=\Theta_q(･)=\Theta_k(･)$ ，我们可以得到 $\Theta_{f}(x_{\{q, k\}}, m)-\theta_{\{q, k\}}$ 是仅仅关于位置 $m$ 的函数

这里可以详述一下，由于 $x_q$ 和 $x_k$ 是在 query 和 key 中任意选取的，因此 $x_q$ 和 $x_k$ 的值并不影响 $\Theta_{f}(x_{\{q, k\}}, m)-\theta_{\{q, k\}}$ 的输出，因此其仅仅是关于位置 $m$ 的函数

因此可推导如下：
$\Theta_{f}(x_{\{q, k\}}, m)-\theta_{\{q, k\}}=\phi(m)→\Theta_{f}\left(x_{\{q, k\}}, m\right)=\phi(m)+\theta_{\{q, k\}}..........(15)$ 当设定 $n = m + 1$ 时，根据公式 (13) 可做如下推导：
$\begin{aligned}\Theta_{k}\left(x_{k}, m+1\right)-\Theta_{q}\left(x_{q}, m\right) &=\Theta_{g}\left(x_{q}, x_{k}, 1\right)..........(16a) \\ \Theta_{k}\left(x_{k}, m+1\right) &=\phi(m+1)+\theta_{k}..........(16b) \\ \Theta_{q}\left(x_{q}, m\right) &=\phi(m)+\theta_{q}..........(16c) \\ \phi(m+1)-\phi(m) & =\Theta_{g}\left(x_{q}, x_{k}, 1\right)+\theta_{q}-\theta_{k}..........(16d) \end{aligned}$

通过 $(13 b)$ 将 $n = m + 1$ 代入得到 $(16 a)$ ，通过 $(15)$ 取 query 映射，并将 $m = m + 1$ 代入得到 $(16 b)$ ，通过 $(15)$ 取 key 映射，得到 $(16 c)$ ，通过 $(16 b) - (16 c)$ 得到 $\phi(m+1)+\theta_{k}-\phi(m)-\theta_{q}=\Theta_{k}\left(x_{k}, m+1\right)-\Theta_{q}(x_q,m)$ ，根据 $(16 a)$ 得到 $\phi(m+1)+\theta_{k}-\phi(m)-\theta_{q}=\Theta_{g}\left(x_{q}, x_{k}, 1\right)$ 再移项得到 $\phi(m+1)-\phi(m)=\Theta_{g}\left(x_{q}, x_{k}, 1\right)+\theta_{q}-\theta_{k}$ 即 $(16 d)$

从 $(16 d)$ 中可以看到，等式的右边与 $m$ 无关，可将其整体当作一个常数 $\theta$ ，因此 $\phi(m+1)-\phi(m)$ 是公差为 $\theta$ 的常数，因此可以构造等比数列如下：
$\phi(m)=m* \theta+\gamma$ 其中 $\theta$ 是非零常数公差， $\gamma$ 是常数初始值，因此公式 $(※)$ 可做如下变换（作者 arxiv 论文中忘记加括号）：
$\begin{aligned} f_{q}\left(x_{q}, m\right)= R_{q}\left(x_{q}, m\right) e^{i \Theta_{q}\left(x_{q}, m\right)}& =\| q\| e^{i( \theta_{q}+m \theta+\gamma)}=q e^{i(m \theta+\gamma)} \\ f_{k}\left(x_{k}, n\right)=R_{k}\left(x_{k}, n\right) e^{i \Theta_{k}\left(x_{k}, n\right)} & =\| k\| e^{i( \theta_{k}+n \theta+\gamma)}=k e^{i(n \theta+\gamma)} \end{aligned}$

前面已经证明了模量映射 $R (･)$ 与弧角无关，弧角映射 $\Theta_{f}(x_{\{q,k\}}, m)=\phi(m) + \theta_{\{q,k\}}=m*\theta+ \theta_{\{q,k\}}$ 代替，又 $q=\| q\| e^{i \theta_{q}}$ ，即可得到上述推导结论

最后，由于 $q$ 、 $k$ 的选取是任意的，为了让最终结果看起来更加简洁规范，我们做如下定义：
$\begin{aligned} & q=f_{q}\left(x_{m}, 0\right)=W_{q} x_{m} \\ & k=f_{k}\left(x_{n}, 0\right)=W_{k} x_{n} \end{aligned}$ 并设定初始值 $\gamma=0$ ，因此得到：
$\begin{aligned} f_{q}\left(x_{m}, m\right) & =\left(W_{q} x_{m}\right) e^{i m \theta} \\ f_{k}\left(x_{n}, n\right) & =\left(W_{k} x_{n}\right) e^{i n \theta} \end{aligned}$

高效计算方式

将二维情况推广到多维情况，则有
$f_{\{q, k\}}\left(x_{m}, m\right)=R_{\Theta, m}^{d} W_{\{q, k\}} x_{m}$
其旋转矩阵：
$R_{\Theta, m}^{d}=\left(\begin{array}{ccccccc} cos m \theta_{1} & -sin m \theta_{1} & 0 & 0 & \cdots & 0 & 0 \\ sin m \theta_{1} & cos m \theta_{1} & 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & cos m \theta_{2} & -sin m \theta_{2} & \cdots & 0 & 0 \\ 0 & 0 & sin m \theta_{2} & cos m \theta_{2} & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & cos m \theta_{d / 2} & -sin m \theta_{d / 2} \\ 0 & 0 & 0 & 0 & \cdots & sin m \theta_{d / 2} & cos m \theta_{d / 2} \end{array}\right)$ 这里 $d$ 为偶数，我们定义 $\Theta=\{{\theta_{i}=10000^{-2(i-1) / d}},i\in[1,2,...,d/2]\}$ ， $q_{m}^{\top} k_{n}$ 计算如下：
$q_{m}^{\top} k_{n}=\left(R_{\Theta, m}^{d} W_{q} x_{m}\right)^{\top}\left(R_{\Theta, n}^{d} W_{k} x_{n}\right)=x^{\top} W_{q} R_{\Theta, n-m}^{d} W_{k} x_{n}$ 其中 $R_{\Theta, n-m}^{d}=(R_{\Theta, m}^{d})^{\top} R_{\Theta, n}^{d}$ ， $R_{\Theta}^{d}$ 为正交矩阵，并且由于 $R_{\Theta}^{d}$ 的稀疏性，直接采用上述矩阵运算的方式效率低下，因此可做如下转换：
$R_{\Theta, m}^{d} x=\left(\begin{array}{c} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \\ \vdots \\ x_{d-1} \\ x_{d} \end{array}\right) \otimes\left(\begin{array}{c} cos m \theta_{1} \\ cos m \theta_{1} \\ cos m \theta_{2} \\ cos m \theta_{2} \\ \vdots \\ cos m \theta_{d / 2} \\ cos m \theta_{d / 2} \end{array}\right)+\left(\begin{array}{c} -x_{2} \\ x_{1} \\ -x_{4} \\ x_{3} \\ \vdots \\ -x_{d} \\ x_{d-1} \end{array}\right) \otimes\left(\begin{array}{c} sin m \theta_{1} \\ sin m \theta_{1} \\ sin m \theta_{2} \\ sin m \theta_{2} \\ \vdots \\ sin m \theta_{d / 2} \\ sin m \theta_{d / 2} \end{array}\right)$

图解过程

RoPE 图解过程

这里以二维为例，输入的单词例如 Enhanced被编码为 $d$ 维（偶数）的 embedding，然后每两个一对，即 $x_1, x_2)$ ，在二维复平面可以画出其向量，然后根据其位置，例如这里为1，那就转动1倍 $\theta_1$ 角，其中 $\theta_1$ 的计算来源于 $\Theta=\{{\theta_{i}=10000^{-2(i-1) / d}},i\in[1,2,...,d/2]\}$ ，以此类推，对于同一个单词的 embedding，旋转的系数即 $m$ 相同，基本角度 $\theta$ 不同，对于不同的 embedding，旋转的基数依次增加

长程衰减 Long-term decay of RoPE

以在二维情况为例， $q_m^Tk_n =Re\left[\left(W_{q} x_{m}\right)\left(W_{k} x_{n}\right)^{*} e^{i(m - n) \theta}\right]$ ，其中 $W_{q} x_{m}$ 和 $W_{k} x_{n}$ 分别是二维向量，前者是行向量，后者是列向量。对于多为情况，假设维度为 $d$ （偶数），我们可以将其两两分块，这样每一块都是一个二维向量，因此可得到如下公式，为了避免混淆，使用 $j$ 表示虚数：
$\left(R_{\Theta, m}^{d} W_{q} x_{m}\right)^{\top}\left(R_{\Theta, n}^{d} W_{k} x_{n}\right)=Re\left[\sum_{i=0}^{d / 2-1} q_{[2 i: 2 i+1]} k_{[2 i: 2 i+1]}^{*} e^{j*(m-n) \theta_{i}}\right]$ 其中 $q_{[2 i: 2 i+1]}$ 表示 $q$ 中 $2 i^{th }$ 到 $2 i+1)^{t h}$ 的值（包含两个值）。设定 $h_{i}=q_{[2 i: 2 i+1]} k_{[2 i: 2 i+1]}^{*}$ ， $S_{j}=$ $\sum_{i=0}^{j-1} e^{i(m-n) \theta_{i}}$ ，并使 $h_{d / 2}=0,S_{0}=0$ ，通过 Abel 变换可做转换如下：
$\sum_{i=0}^{d / 2-1} q_{[2 i: 2 i+1]} k_{[2 i: 2 i+1]}^{*} e^{i(m-n) \theta_{i}}=\sum_{i=0}^{d / 2-1} h_{i}\left(S_{i+1}-S_{i}\right)=-\sum_{i=0}^{d / 2-1} S_{i+1}\left(h_{i+1}-h_{i}\right)$
$\begin{aligned} \left|\sum_{i=0}^{d / 2-1} q_{[2 i: 2 i+1]} k_{[2 i: 2 i+1]}^{*} e^{i(m-n) \theta_{i}}\right| & =\left|\sum_{i=0}^{d / 2-1} S_{i+1}\left(h_{i+1}-h_{i}\right)\right| \\ & \leq \sum_{i=0}^{d / 2-1}\left|S_{i+1}\right|\left|\left(h_{i+1}-h_{i}\right)\right| \\ & \leq\left(max _{i}\left|h_{i+1}-h_{i}\right|\right) \sum_{i=0}^{d / 2-1}\left|S_{i+1}\right| \end{aligned}$

Abel 变换，这里简要证明一下 Abel 变换和上式的推导过程

定义与公式：设 ${a_n\}$ 、 ${b_n\}$ 和是两个数列，记 $B_k=\sum_{i=1}^{k}b_i (B_0=0)$ ，那么 $\sum_{k=1}^{n}a_kb_k=\sum_{k=1}^{n}a_k(B_k-B_{k-1})=a_nB_n-\sum_{k=1}^{n-1}(a_{k+1}-a_k)B_k$
证明过程：
由 $B_k-B_{k-1}=b_k$ 可得 $\sum_{k=1}^{n}a_kb_k=\sum_{k=1}^{n}a_k(B_k-B_{k-1})$
展开得： $a_1(B_1-B_0)+a_2(B_2-B_1)+a_3(B_3-B_2)+...+a_n(B_n-B_{n-1})$
上式等价于 $a_nB_n-[(a_2B_1-a_1B_1)+(a_3B_2-a_2B_2)+a_1B_0]$ ，由于 $B_0=0$ ，所以 $a_nB_n-[(a_2B_1-a_1B_1)+(a_3B_2-a_2B_2)+a_1B_0]=a_nB_n-\sum_{k=1}^{n-1}(a_{k+1}-a_k)B_k$

论文公式推导，由 $S_0=0$ 时，上式满足 Abel 变换，再者，作者设置 $h_{d/2}=0$ ，这里的目的是方便化简，因此可以如下变换 $\sum_{i=0}^{d / 2-1} h_{i}\left(S_{i+1}-S_{i}\right)=\sum_{i=0}^{d / 2-1} h_{i}\left(S_{i+1}-S_{i}\right)+h_{d/2}(S_{d/2+1}-S_{d/2})=\sum_{i=0}^{d / 2} h_{i}\left(S_{i+1}-S_{i}\right)$ ，根据 Abel 公式(注意别代换错误了) 可得 $\sum_{i=0}^{d / 2} h_{i}\left(S_{i+1}-S_{i}\right)=h_{d/2}S_{d/2+1}-\sum_{i=0}^{d / 2-1} S_{i+1}\left(h_{i+1}-h_{i}\right)$ ，由于 $h_{d/2}=0$ ，可得 $\sum_{i=0}^{d / 2} h_{i}\left(S_{i+1}-S_{i}\right)=-\sum_{i=0}^{d / 2-1} S_{i+1}\left(h_{i+1}-h_{i}\right)$

通过设置 $\theta_{i}=10000^{-2 i / d}$ ，随着 $m - n$ 的值增大，即两个 token 之间的间隔越大 $\frac{1}{d / 2} \sum_{i=1}^{d / 2}|S_{i}|$ 会出现衰减

RoPE 长距离衰减

根据上述公式可实现如下 Python 代码

import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Hiragino Sans GB']  # 修改字体
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

# 定义向量维度 d
d = 128

# 定义 Theta 函数
def theta(t):
    return 10000 ** (-2 * t / d)


# 定义目标函数 f(m)
def f(m):
    result = 0
    for j in range(int(d / 2)):
        inner_sum = np.sum(np.exp(1j * m * theta(np.arange(0, j + 1))))
        result += np.abs(inner_sum)
    return result / (d / 2)


# 生成相对距离 m 的取值范围
m_values = np.linspace(0, 256, 500)
# 计算每个 m 对应的函数值
f_values = [f(m) for m in m_values]

# 绘制图像
plt.plot(m_values, f_values)
plt.xlabel('相对距离')
plt.ylabel('相对大小')
plt.title('相对大小随相对距离的变化')
plt.grid(True)
plt.show()