大模型无限上下文的奥秘已被揭开

最新推荐文章于 2024-10-25 19:39:31 发布

seetimee

最新推荐文章于 2024-10-25 19:39:31 发布

阅读量1k

点赞数 11

分类专栏：大模型技术细节文章标签：大模型

本文链接：https://blog.csdn.net/stephen147/article/details/140957643

版权

大模型技术细节专栏收录该内容

11 篇文章 0 订阅

订阅专栏

[外链图片转存中…(img-brIPkSME6%A8%A-1722930016763)

上个星期，Google出了篇论文，叫做《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》。

论文介绍了一种新的方法，可以将基于Transformer的大语言模型接收的上下文长度拓展到无限长。

乍听之下非常唬人，不过之前Google发布的Gemini 1.5大模型就支持超长100万token上下文长度，这篇新的Infini-attention论文一出，很多人认为Gemini背后用的就是这项技术。

Attention计算

Transformer这个模型结构，从出生这一天起，业界就开始解决它应对长上下文时计算量爆炸的问题了。

在之前的文章也简单提过这一计算量，这里再重新列一遍。

我们回到Attention的计算公式中，

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \\$

其中Q、K、V都是由文本输入向量乘以对应权重矩阵产生，分别有：

$Q=W_qX \$$K=W_kX \$$V=W_vX \$

X的维度由输入长度和每个token的Embedding长度决定，即[seq_length, dim]，三个权重矩阵的维度分别为[dim,dim]。

那么Q、K、V矩阵分别的维度都是[seq_length,dim]。

代入Attention计算公式的第一部分，

$QK^T \\$

这两个矩阵的相乘结果，会得到一个维度为[seq_length， seq_length]的矩阵。

如果上下文长度超长，即seq_length极其庞大，则这个矩阵的维度也是惊人的。

目前有不少工程化的方法来解决这一问题，其核心思想都是“分而治之”。利用softmax也能局部计算的特性，分解QK矩阵的计算。有兴趣可以看看之前写的文章。

从线性Transformer以及Transformer-XL说起

任何新技术的提出，都是有迹可循的。

要讨论Infini-Transformer，先得了解一下2019年Google提出的Transformer-XL以及2020年《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》这篇论文。

Transformers are RNNs：

这篇论文提出了一个线性Attention的假设。

我们知道，attention公式中很重要的一步是Q矩阵和K矩阵相乘后，进行softmax。QK相乘产生的矩阵大小是n * n，即空间复杂度是序列长度的平方。如果说，我们能够把softmax拿掉，

$\boldsymbol{Q}\boldsymbol{K}^{\top}\boldsymbol{V} \\$

就是简单的三个矩阵

$\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v} \\$

的相乘，而矩阵相乘满足结合律，我们可以先算KV，得到一个维度为[d,d]的矩阵，然后使用Q来左乘这个矩阵，因为

$\ll n \\$

所以复杂度可以降到O(n)，即线性复杂度。

那么我们该如何做到这一点呢？

我们先将传统的带softmax的单个token的attention等价改写为以下形式：

$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j} \boldsymbol{v}_j}{\sum\limits_{j=1}^n e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j}}$

对于序列中某一个token来说，它最终的attention值，是和序列中其它token的k值分别进行点积后并归一化后，使用softmax对所有的点积进行0到1的概率分布处理，然后再和每个token的v值相乘。最终将所有相乘的结果进行加和。

实际上softmax在这里，起到的就是一个输出q和每个k相似度的作用。

我们把原始softmax的

$e^{\boldsymbol{q}_i^{\top}\boldsymbol{k}_j} \\$

换成一个sim函数，即比较相似度的函数，改写为以下形式：

$Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)}\\$

现在重点就是，找到一个合适的sim函数。而且需要满足softmax的性质，即

$\text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\geq 0 \\$

论文中使用的是核函数变换 $\phi(x)$ 来模拟softmax，核函数将数据映射到一个更高维的空间（核空间）。

在这个空间中，一些原本在原始空间中线性不可分的问题可能变得线性可分。

比如上图中，红色的数和蓝色的数在一维空间中是不可分的，但是通过二次函数映射，就变得线性可分了。

这种映射本质上是一种特征扩展，它可以让线性模型在这个扩展后的特征空间中以线性方式表达原本的非线性关系。

在注意力机制的上下文中，核函数被用来变换查询和键的表示，这样就可以通过简单的点积来近似原本需要通过softmax计算的复杂非线性相似度。

于是可以把单个token的Attention $Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i=V'_i$ 改写为以下形式：

$V'_i = \frac{\sum_{j=1}^N \phi ({Q_i}^T) \phi ({K_j}) V_j} {\sum_{j=1}^N \phi ({Q_i}^T) \phi ({K_j})}\\$

然后因为计算的是在j维度上的和，所以可以把 $Q_i$ 提取出来，

$V'_i = \frac{\phi({Q_i}^T) \sum_{j=1}^N \phi({K_j}) V_j^T} {\phi({Q_i}^T) \sum_{j=1}^N \phi({K_j})} \\$

在这个形式下，每个token的q其实都是和一样的 $\sum_{j=1}^N \phi({K_j}) V_j^T$ 进行计算，所以这个求和只用计算一次。那么完整的 $V_0...V_n$ 其实就是每一个Q和这个和相乘一次。那么复杂度就只和n相关，所以将复杂度降低到了 $O (n)$ 。

论文中具体的 $\phi(x)$ 选择的是 $\text{elu}(x) + 1$ 。

$\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}\\$

具体为什么选择ELU，论文里随便写了几句。这个不是重点。就不再展开了。

Causal Masking

我们知道，Transformer在执行生成任务时候，Attention的计算是使用掩码矩阵的形式。

即当前的token只和上文计算Attention，形成了一个上三角掩码矩阵。

那么，之前的公式中，加和的部分，则是由第一个位置j=1加和至当前位置i。

$V'_i = \frac{\sum_{j=1}^i \phi ({Q_i}^T) \phi ({K_j}) V_j} {\sum_{j=1}^i \phi ({Q_i}^T) \phi ({K_j})}$
$V'_i = \frac{\phi({Q_i}^T) \sum_{j=1}^i \phi({K_j}) V_j^T} {\phi({Q_i}^T) \sum_{j=1}^i \phi({K_j})}$

我们使用 $S_i$ 和 $Z_i$ 分别表示上式中求和的部分，则有

$S_i = \sum_{j=1}^i \phi({K_j}) V_j^T$ $Z_i = \sum_{j=1}^i \phi({K_j})$

那么，可将某个Token的Attention计算公式再简化为：

$V'_i = \frac{\phi({Q_i}^T) S_i} {\phi({Q_i}^T) Z_i} \\$

也就是说，每推断一步， $S_i$ 和 $Z_i$ 都进行了一次更新，即重新从j到i进行了加和。

这个形式马上就要和循环神经网络，RNN相结合了。

我们都知道，RNN的形式是，给定模型一个输入，然后产生出一个hidden state，和一个输出y。

下一步将上一步的hidden state和当前这一步的输入再输入给模型，继续产生当前步的hidden state和输出y，循环往复。

那么Casual Masking形式的其实也是一样的步骤，S和Z分别表示为attention memory和归一化memory。

这两个值实际上和RNN中的Hidden State一样，存储了之前每一步的信息。

Transformer利用这两个值，和当前Q进行计算，产生新的输出。

$\begin{align} s_0 &= 0, \\ z_0 &= 0, \\ s_i &= s_{i-1} + \phi(x_i W_K) \left(x_i W_V\right)^T, \\ z_i &= z_{i-1} + \phi(x_i W_K), \\ y_i &= f_l\left(\frac{\phi(x_i W_Q)^T s_i}{\phi(x_i W_Q)^T z_i} + x_i\right). \end{align}$

在 $S_i$ 和 $Z_i$ 加和的过程中，上一步加和的结果我们是知道的，于是只需要计算当前这一步的值，加到原值即可。计算量也大大降低了。

有了这层铺垫，我们也就不难理解，为什么Infini-Attention论文中，要把memory定义成这个形式：

$A_{mem} = \frac{\sigma({Q}) M_{s-1}} {{\sigma(Q)} z_{s-1}} \\$

以及它更新状态的公式：

$M_{s} \leftarrow M_{s-1} + \sigma(K)^T V$ $z_{s} \leftarrow z_{s-1} + \sum_{t=1}^N \sigma(K_t)$

Transformers-XL

Transformer-XL，是在模型结构上做了一些改进，以应对长上下文问题。

基于Transformer架构进行NLP建模，在处理文本时，输入长度是固定的。比如BERT的限制的输入大小是512，如果不足512，则使用padding标记填充长度至512。但是如果输入的文本长度超过512，就需要使用一些技巧来应对。

最简单的方式是将输入的文本按照512的长度进行分段，然后分段进行训练。

但是这会造成两个问题，

上下文碎片化，由于切分段落是根据长度切分，这个处理方式并不考虑文本中的真实语义边界。有可能将完整语义的一句话，切分至两个段落。

冗余推理，在推理过程中，需要按照512的窗口大小，一步步向后进行推理，这样实际上会造成一定的计算冗余，效率不高。

捕获每个segment上下文信息

针对上下文碎片化的问题，引入Segment-Level recurrence mechanism来建模更长序列，它通过融合前后两个Segment的信息来到这个目的。

简单来说就是，上一个片段的一些信息，会传递至下一个片段，这样保持了上文中有价值的信息能够传递下去，不至于让每个Transformer块获取的信息是孤立的。

具体实现方式如下：假设序列长度为L，

当前的segment为，

$\text{s}_{\tau}=[x_{\tau,1},x_{\tau,2},...,x_{\tau,L}] \\$

后面的segment为，

$\text{s}_{\tau+1}=[x_{\tau+1,1},x_{\tau+1,2},...,x_{\tau+1,L}] \\$

当前segment计算得出的第层的状态向量

$h_{\tau}^n \in \mathbb{R}^{L \times d} \\$

$\text{SG}(h_{\tau}^{n-1})$ 表示不使用梯度， $\left[ \text{SG}(h_{\tau}^{n-1}) \; \circ \;h_{\tau+1}^{n-1} \right]$ 表示将前后两个Segment的输出向量在序列维度上进行拼接。

$\tilde{h}_{\tau+1}^{n-1} = \left[ \text{SG}(h_{\tau}^{n-1}) \; \circ \;h_{\tau+1}^{n-1} \right] \\$

然后，下面的公式表示获取Self-Attention计算中相应的 , , 矩阵，其中在计算的时候仅仅使用了当前Segment的向量，在计算和的时候同时使用前一个Segment和当前Segment的信息。

$q_{\tau+1}^{n}, \; k_{\tau+1}^n, \; v_{\tau+1}^n = h_{\tau+1}^{n-1}W_{q}^{\mathrm{ T }}, \; \tilde{h}_{\tau+1}^{n-1}W_{k}^{\mathrm{ T }}, \; \tilde{h}_{\tau+1}^{n-1}W_{v}^{\mathrm{ T }} \\$