基于 KV Cache 实现流式 Self-Attention 序列解码

最新推荐文章于 2025-04-05 14:11:17 发布

Pika在线

最新推荐文章于 2025-04-05 14:11:17 发布

阅读量1.5k

点赞数 22

文章标签： pytorch gpt self-attention

本文链接：https://blog.csdn.net/Ephemeroptera/article/details/140323157

版权

引言

自注意力机制（Self-Attention）作为Transformer模型的核心，极大地提升了自然语言处理、图像处理等领域的性能。然而，传统的自注意力机制在处理长序列时存在计算复杂度高、内存消耗大的问题。为了应对这一挑战，流式自注意力（Streaming Self-Attention）应运而生，通过KV缓存（Key-Value Cache）实现高效的序列解码。

本文将详细解析基于KV缓存的流式Self-Attention代码，并通过示例展示其工作机制和效果。
在这里插入图片描述

代码解析

导入依赖

首先，我们导入必要的PyTorch模块：

import torch
import torch.nn as nn
import math

定义流式Self-Attention类

接下来，我们定义一个流式Self-Attention的类StreamSelfAttention。该类继承自nn.Module，并实现了流式Self-Attention机制：

class StreamSelfAttention(nn.Module):
    def __init__(self, model_dim, attention_size):
        super(StreamSelfAttention, self).__init__()
        self.model_dim = model_dim
        self.attention_size = attention_size
        self.query_proj = nn.Linear(model_dim, model_dim)
        self.key_proj = nn.Linear(model_dim, model_dim)
        self.value_proj = nn.Linear(model_dim, model_dim)
        self.softmax = nn.Softmax(dim=-1)
        
        self.k_cache = None
        self.v_cache = None

在构造函数中，我们初始化了模型维度（model_dim）和注意力窗口大小（attention_size），并定义了投影层用于生成查询（Q）、键（K）、值（V）向量。我们还定义了用于存储KV缓存的成员变量k_cache和v_cache。

前向传播

在forward方法中，我们实现了流式Self-Attention的前向传播过程：

def forward(self, x, past_k=None, past_v=None):
    # Project inputs to Q, K, V
    q = self.query_proj(x)  # (N, T, model_dim)
    k = self.key_proj(x)  # (N, T, model_dim)
    v = self.value_proj(x)  # (N, T, model_dim)
    
    batch_size = x.size(0)
    seq_len = x.size(1)
    
    # Initialize past_k and past_v if not provided
    if past_k is None:
        past_k = torch.zeros((batch_size, 0, self.model_dim), device=x.device)
        past_v = torch.zeros((batch_size, 0, self.model_dim), device=x.device)
    
    # Concatenate past K, V with current K, V
    k = torch.cat([past_k, k], dim=1)  # (N, seq_len + T, model_dim)
    v = torch.cat([past_v, v], dim=1)  # (N, seq_len + T, model_dim)
    
    # Trim cache to the attention size
    if k.size(1) > self.attention_size:
        k = k[:, -self.attention_size:]  # (N, attention_size, model_dim)
        v = v[:, -self.attention_size:]  # (N, attention_size, model_dim)

    # Compute attention scores
    attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.model_dim)  # (N, T, attention_size)
    attn_weights = self.softmax(attn_scores)  # (N, T, attention_size)
    
    # Compute attention output
    attn_output = torch.matmul(attn_weights, v)  # (N, T, model_dim)
    
    # Update caches
    self.k_cache = k
    self.v_cache = v
    
    return attn_output, self.k_cache, self.v_cache

代码详细解析

投影输入到查询、键、值向量：
```
q = self.query_proj(x)  # (N, T, model_dim)
k = self.key_proj(x)  # (N, T, model_dim)
v = self.value_proj(x)  # (N, T, model_dim)
```
这里，我们将输入x通过线性层分别投影到查询、键和值向量。这些向量用于后续的注意力计算。

初始化缓存：

if past_k is None:
    past_k = torch.zeros((batch_size, 0, self.model_dim), device=x.device)
    past_v = torch.zeros((batch_size, 0, self.model_dim), device=x.device)

如果没有提供过去的键和值缓存，我们初始化为空的张量。

拼接缓存和当前的键、值向量：
```
k = torch.cat([past_k, k], dim=1)  # (N, seq_len + T, model_dim)
v = torch.cat([past_v, v], dim=1)  # (N, seq_len + T, model_dim)
```
我们将过去的键和值向量与当前的键和值向量拼接，以便在注意力计算中使用。

裁剪缓存：

if k.size(1) > self.attention_size:
    k = k[:, -self.attention_size:]  # (N, attention_size, model_dim)
    v = v[:, -self.attention_size:]  # (N, attention_size, model_dim)

为了限制计算复杂度，我们将缓存裁剪到指定的注意力窗口大小。

计算注意力分数和权重：

attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.model_dim)  # (N, T, attention_size)
attn_weights = self.softmax(attn_scores)  # (N, T, attention_size)

我们通过查询向量和键向量计算注意力分数，并通过Softmax函数得到注意力权重。

计算注意力输出：
```
attn_output = torch.matmul(attn_weights, v)  # (N, T, model_dim)
```
最后，我们通过注意力权重和值向量计算注意力输出。
更新缓存：
```
self.k_cache = k
self.v_cache = v
```

示例

为了更好地理解该机制的工作方式，我们通过一个示例来展示其效果：

if __name__ == "__main__":
    batch_size = 2
    model_dim = 64
    attention_size = 10
    seq_len = 1

    # Instantiate the self-attention layer
    self_attn = StreamSelfAttention(model_dim, attention_size)
    
    past_k = past_v = None
    for t in range(5):
        x = torch.rand(batch_size, seq_len, model_dim)  # Simulating input at time step t
        output, past_k, past_v = self_attn(x, past_k, past_v)
        print(f"Output shape at time step {t}: {output.shape}")  # (N, T, model_dim)
        print(f"past_k shape: {past_k.shape}")  # (N, seq_len + T, model_dim)
        print(f"past_v shape: {past_v.shape}")  # (N, seq_len + T, model_dim)

在这个示例中，我们创建了一个流式Self-Attention层，并在5个时间步内进行前向传播。每个时间步，我们生成随机输入，并通过Self-Attention层计算输出，同时更新键和值缓存。

输出示例

Output shape at time step 0: torch.Size([2, 1, 64])
past_k shape: torch.Size([2, 1, 64])
past_v shape: torch.Size([2, 1, 64])
Output shape at time step 1: torch.Size([2, 1, 64])
past_k shape: torch.Size([2, 2, 64])
past_v shape: torch.Size([2, 2, 64])
Output shape at time step 2: torch.Size([2, 1, 64])
past_k shape: torch.Size([2, 3, 64])
past_v shape: torch.Size([2, 3, 64])
Output shape at time step 3: torch.Size([2, 1, 64])
past_k shape: torch.Size([2, 4, 64])
past_v shape: torch.Size([2, 4, 64])
Output shape at time step 4: torch.Size([2, 1, 64])
past_k shape: torch.Size([2, 5, 64])
past_v shape: torch.Size([2, 5, 64])

可以看到，随着时间步的增加，键和值缓存逐渐积累，并在注意力计算中使用。