LLM并发介绍

最新推荐文章于 2025-05-23 09:44:57 发布

goomind

最新推荐文章于 2025-05-23 09:44:57 发布

阅读量1.1k

点赞数 24

分类专栏： LLM 文章标签： llm 并行编程深度学习 transformer

本文链接：https://blog.csdn.net/weixin_40280870/article/details/145240413

版权

LLM 专栏收录该内容

20 篇文章

订阅专栏

llm并发

我们日常使用 ChatGPT 等大语言模型（LLM）应用来提升工作效率，或者通过模型厂商提供的 API 来开发项目。那么，这些服务是如何确保在生产环境中应对每分钟数万次乃至更多请求的同时，还能为全球用户提供始终如一的良好体验呢？这离不开先进的并发处理技术的支持。

1. 推理过程

LLM 推理分为两部分: 预填充阶段（Prefill）和生成阶段（Generation）。

1.1 预填充阶段

在预填充阶段所做的事有：处理输入 prompt 的所有 tokens 并行计算所有输入 tokens 的 attention，生成并缓存 Key-Value（KV cache）。通常耗时较长，但只需执行一次。

1.2 生成阶段

该阶段则是自回归生成每个新 token，使用之前生成的 KV cache，只需计算最新 token 的 attention。每个 token 耗时较短，但由于 Transformer 的自回归特性需要串行执行。

模型从输入序列（例如 “Artificial Intelligence is”）开始，通过多层网络计算生成下一个单词（如 “the”）。每次生成一个新单词后，将其加入到输入序列中，作为下一次推理的输入。这个循环过程一直持续，直到达到预设的最大长度（如 2048 tokens）或生成特定结束标记（如 <end of sequence>）。

在这里插入图片描述

由于 Transformer 的自回归特性，其推理是逐步的，每一步都依赖上下文和历史生成结果。因此还需要先前所有 tokens 的表示。

2. KV-Cache

在训练过程中，Attention 机制会计算查询（Query）、键（Key）和值（Value）矩阵的所有元素之间的关系。这意味着模型会使用完整的 QKV 矩阵 来计算注意力分数和加权和，从而生成所有可能的 next token。

在这里插入图片描述

而在推理过程中我们只关心预测 next token，为了提高效率，只需要计算当前最尾的一个查询向量（Q[-1]）与所有的键向量（K[:]）和值向量（V[:]）之间的关系。通过计算好的 k 和 v 值，我们可以用空间换时间。

无 kv-cache 时,

idx = cat(idx, next_idx)

开启 kv-cache 后,

idx = next_idx

在这里插入图片描述

更详细的实现如下：

# 训练时预分配 cache 空间
self.cached_keys = torch.zeros(
    (max_batch_size, max_sequence_length, num_attention_heads, attention_dim)
)
self.cached_values = torch.zeros(
    (max_batch_size, max_sequence_length, num_attention_heads, attention_dim)
)

# 推理时在 forward 中:
# 1. 计算当前输入的 QKV
query = self.query_proj(x).view(batch_size, seq_length, num_heads, attention_dim)
key = self.key_proj(x).view(batch_size, seq_length, num_heads, attention_dim)
value = self.value_proj(x).view(batch_size, seq_length, num_heads, attention_dim)

# 2. cache
if using_cache and not self.training:
    # 将新计算的 key,value 存入 cache 对应位置
    self.cached_keys[:batch_size, start_position:start_position + seq_length] = key
    self.cached_values[:batch_size, start_position:start_position + seq_length] = value
    
    # 获取包含历史和当前的完整 key,value 序列
    key = self.cached_keys[:batch_size, :start_position + seq_length]
    value = self.cached_values[:batch_size, :start_position + seq_length]

因此，高效管理 KV-Cache 是实现高吞吐量部署服务的关键

3. 重要指标

为了评估 LLM 的并发推理能力，我们最感兴趣的指标是延迟（latency）和吞吐量（throughput）。

3.1 延迟

延迟是评价 LLM 对用户查询给出反馈速度的标尺，塑造了用户对生成型 AI 应用的直观体验。因此在即时交互场景中，低延迟极为关键。为了全面评估模型延迟，可采纳以下几种度量方式：

3.1.1 TTFT（Time to First Token）

即从请求发出到接收首个回答 token 的时间间隔。

影响 TFTT 的主要因素有：

网络速度：取决于系统的带宽以及网络请求在推理时是否拥挤。
输入序列长度：提示（prompt）越长，则模型在输出第一个令牌之前需要更多处理。
模型大小：直观上，模型参数量越大，则执行计算以生成响应会增加，并导致 TFTT 变长。

这一指标在“在线流式输出模式”下尤为重要，因为它直接影响用户感知的响应速度。

3.1.2 TPOT（Time per Output Token）

即除了首个 token 外，输出每个 token 的平均时长。

较短的 TPOT 可以提高系统的整体响应速度，特别是在需要生成大量文本的情况下，如离线批处理服务。

3.1.3 总体延迟

指的是模型的端到端延迟：从用户最初输入提示到接收到模型完成的输出之间的时间跨度。

通常我们说的延迟，实际上指的就是这个指标。其计算方式如下：

$\times 要生成的\:token\:数量)$

从公式中可以看出，影响 TFTT 的主要因素有：

输出长度：最重要的影响因素，因为它直接决定了 TPOT 部分的大小。输出越长，即需要生成的 token 数量越多，延迟时间也会相应增加。
预填充时间：对应 TTFT。
排队时间：由于硬件限制——尤其是 GPU 显存不足时，LLM 可能无法跟上用户的请求速度。这意味着部分输入请求需要先排队等候处理。这也正是 TTFT 成为一项普遍记录指标的原因所在，因为它能揭示模型服务器应对不同数量用户请求的能力如何，进而预示其在实际应用场景中的表现。如何在有限的显存下降低排队时间，便是提升并发的一个方向。

在这里插入图片描述