旋转位置编码详细介绍

最新推荐文章于 2024-07-20 10:40:46 发布

爱可乐的松鼠

最新推荐文章于 2024-07-20 10:40:46 发布

阅读量678

点赞数 29

文章标签：线性代数

本文链接：https://blog.csdn.net/qq_33424313/article/details/139621305

版权

文章目录

旋转矩阵

复数 $z = a + bi$ 可以看成一个向量 $\begin{bmatrix} a \\ b \end{bmatrix}$ ，反过来，一个二维向量也可以看成一个复数。
复数 $z = a + bi$ 也可以看成复平面上的一个点，在极坐标系下，
$(a=r\cos \theta, b=r\cos\theta)$ ，其中 $\theta$ 为幅角， $r$ 为模长，等于 $\sqrt{(a^2+b^2)}$
现在我们考虑将一个向量 $\begin{bmatrix} x \\ y \end{bmatrix}$ 旋转 $\theta$ ，怎么计算旋转之后的向量?
旋转之前的向量，用极坐标可以这么表示， $\alpha$ 为起始的幅角
$\begin{cases} x = r\cos\alpha \\ y = r\sin\alpha \end{cases}$
旋转之后的向量，同样可以这么表示
$\begin{cases} x' = r\cos(\alpha+\theta) \\ y' = r\sin(\alpha+\theta) \end{cases}$
把上述公式用和差化积展开
$\begin{equation} \begin{split} x' &= r\cos(\alpha+\theta)\\ &=r(\cos\alpha\cos\theta-\sin\theta\sin\alpha)\\ &=x\cos\theta-y\sin\theta \end{split} \end{equation}$
$\begin{equation} \begin{split} y' &= r\sin(\alpha+\theta)\\ &=r(\sin\alpha\cos\theta+\cos\alpha\sin\theta)\\ &=x\sin\theta+y\cos\theta \end{split} \end{equation}$
整理一下，写成矩阵形式，
$\begin{bmatrix} x'\\ y' \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} x\\ y \end{bmatrix}$
上述公式的 $\begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix}$ 就是我们所说的旋转矩阵

复数乘以复数

对于两个复数， $z_1=a+bi$ 和 $z_2=c+di$ ，计算 $z_1z_2$

矩阵视角
$\begin{equation} \begin{split} z_1z_2 &=(a+bi)(c+di) \\ &=(ac-bd)+(ad+bc)i\\ \end{split} \end{equation}$
可以看成矩阵与向量的乘积，即
$\begin{bmatrix} a & -b\\ b & a \end{bmatrix} \begin{bmatrix} c\\ d \end{bmatrix}$
极坐标系视角
$z_1=r_1(\cos\theta_1+i\sin\theta_1)$
$z_2=r_2(\cos\theta_2+i\sin\theta_2)$
$z_1z_2=r_1r_2(\cos(\theta_1+\theta_2)+i\sin(\theta_1+\theta_2))$
可以看成将复数 $z_1$ 旋转 $\theta_2$ ，并且将模长缩放 $r_2$ 。或者是将 $z_2$ 旋转 $\theta_1$ ，模长缩放 $r_1$

旋转位置编码

目标：对q和k分别添加绝对位置信息，在做完点乘之后，具有相对位置信息。即q和k的位置分别是m,n，点乘之后，位置信息只与m-n有关

其中， $e^{ix}=\cos x+i\sin x$
$W_q,W_k$ 是quey和key对应的可学习矩阵，假设输入的query和key是 $d_m$ 维的，那么 $x_m,x_n\in\mathcal{R}^{d_m\times1}$ ,使用 $W_q,W_k$ 进行变换，变换之后的结果是 $\mathcal{R}^{d_m\times1}$ ，这里我们只考虑2维的情况。
记 $x_m,x_n$ 变换之后的向量是 $q_m,k_n\in\mathcal{R}^{2\times1}$ 。 $q_me^{im\theta}$ 是一个向量乘以一个复数，二维向量可以看成一个复数，那么上式可以看成两个复数相乘，那么根据第二部分的知识，两个复数的乘积等于：幅角相加，模长相乘。而 $e^{im\theta}$ 的模长是1，即相乘之后的模长不变，只进行了旋转，即把 $q_m$ 向量旋转了 $m\theta$ 角度。根据第一部分的知识，旋转就是乘上一个旋转矩阵，即
$f_q(x_m,m)= \begin{bmatrix} \cos m\theta & -\sin m\theta\\ \sin m\theta & \cos m\theta \end{bmatrix} \begin{bmatrix} q_m^1 \\ q_m^2 \end{bmatrix}$

$f_k(x_n,n)= \begin{bmatrix} \cos n\theta & -\sin n\theta\\ \sin n\theta & \cos n\theta \end{bmatrix} \begin{bmatrix} k_n^1 \\ k_n^2 \end{bmatrix}$
对于 $q_mk_n^*e^{i(m-n)\theta}$ ，前面的 $q_mk_n^*$ 可以看成两个复数相乘，可以转化为复数的矩阵形式，即
$\begin{equation} \begin{split} q_mk_n^*&= \begin{bmatrix} q_m^1 & -q_m^2\\ q_m^2 & q_m^1 \end{bmatrix} \begin{bmatrix} k_n^1 \\ -k_n^2 \end{bmatrix}\\ &= \begin{bmatrix} q_m^1k_n^1+q_m^2k_n^2 \\ q_m^2k_n1-q_m^1k_n^2 \end{bmatrix}\\ \end{split} \end{equation}$
再乘上 $e^{i(m-n)\theta}$ ，相当于把上述的2维向量旋转了 $(m-n)\theta$ ，乘上一个旋转矩阵即可，即
$\begin{equation} \begin{split} q_mk_n^*e^{i(m-n)\theta} &= \begin{bmatrix} \cos (m-n)\theta & -\sin (m-n)\theta \\ \sin (m-n)\theta & \cos (m-n)\theta \end{bmatrix} \begin{bmatrix} q_m^1k_n^1+q_m^2k_n^2 \\ q_m^2k_n1-q_m^1k_n^2 \end{bmatrix} \\ \end{split} \end{equation}$
只取实数部分，即
$\begin{equation} \begin{split} g(x_m,x_n,m-n) &=(q_m^1k_n^1+q_m^2k_n^2) (\cos (m-n)\theta) - ( q_m^2k_n^1-q_m^1k_n^2)(\sin(m-n)\theta)\\ \end{split} \end{equation}$
对于 $f_q(x_m,m), f_k(x_n,n)>$ ，可以计算：
$\begin{equation} \begin{split} <f_q(x_m,m), f_k(x_n,n)> &= \bigg( \begin{bmatrix} \cos m\theta & -\sin m\theta\\ \sin m\theta & \cos m\theta \end{bmatrix} \begin{bmatrix} q_m^1 \\ q_m^2 \end{bmatrix}\bigg)^T\bigg(\begin{bmatrix} \cos n\theta & -\sin n\theta\\ \sin n\theta & \cos n\theta \end{bmatrix} \begin{bmatrix} k_n^1 \\ k_n^2 \end{bmatrix}\bigg)\\ &=g(x_m,x_n,m-n) \end{split} \end{equation}$