大语言模型参数指标详解

最新推荐文章于 2025-04-11 09:23:17 发布

香菜烤面包

最新推荐文章于 2025-04-11 09:23:17 发布

阅读量2.1k

点赞数 23

分类专栏： # AI 大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/daydayup858/article/details/146499411

版权

AI 大模型专栏收录该内容

13 篇文章

订阅专栏

（这张图是AI生成的，看着还行～）

1. TTFT （首Tokens时延，Time to First Token）

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间，直接影响用户对响应速度的感知，特别是在流式输出场景（如对话 AI）中至关重要。

影响因素：

模型推理时间：复杂度越高，首 Token 生成时间越长
计算资源：高性能 GPU/TPU 可减少计算时延
网络延迟：传输和 API 调用的延迟会影响 TTFT
批处理（Batch Size）：单个请求的计算资源分配会影响 TTFT

2. E2E Latency （端到端时延，End-to-End Latency）

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时，包括网络传输、计算、序列生成等全流程。

计算方式：

端到端时延 = 首 Token 时延（TTFT）+ 后续 Token 生成总时间

影响因素：

模型计算开销：影响整体生成速度
流式 vs. 非流式：流式输出可以降低感知延迟
并行计算能力：影响批量请求处理效率

3. TPOT（Time Per Output Token）

TPOT 表示模型生成单个 Token 的平均耗时，反映持续输出的效率。

计算方式：

TPOT = 总生成时间 / 输出 Token 数量

影响因素：

硬件计算能力：影响 Token 生成速度
序列长度：长文本可能增加计算复杂度
优化策略：如 KV Cache 可减少计算冗余

4. ITL（Token 延时，Inter-Token Latency）

ITL 指的是生成每个 Token 的实际间隔时间，通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别：

TPOT 是所有 Token 的平均生成时间
ITL 关注单步生成的实时波动

影响因素：

负载波动：计算资源占用变化可能导致 ITL 不稳定
Token 依赖：不同上下文对 Token 生成时间有影响

5. 吞吐（Throughput）

吞吐量指的是单位时间内系统处理的 Token 总数（如 Tokens/秒）

关键指标：

Request Throughput (req/s)：每秒处理的请求数
- 计算方式：总请求数 / 运行时间
- 应用场景：高并发 API 服务
Input Token Throughput (tok/s)：每秒处理的输入 Token 数量
- 计算方式：输入 Token 总数 / 运行时间
- 应用场景：长文本解析、大模型输入
Output Token Throughput (tok/s)：每秒生成的输出 Token 数量
- 计算方式：输出 Token 总数 / 运行时间
- 应用场景：文本生成、对话 AI
Total Token Throughput (tok/s)：总吞吐量
- 计算方式：（输入+输出 Token 总数）/ 运行时间
- 应用场景：端到端流水线性能评估

影响因素：

计算硬件：GPU/TPU 并行能力直接影响吞吐量
批处理（Batch Size）：较大批次可提高吞吐量，但可能影响时延
模型优化：如混合精度计算（FP8、FP16）可提升性能

6. 流式场景与非流式场景

流式场景（Streaming）

流式输出指数据以连续的小块形式实时传输，生成后立即发送，客户端可逐步接收，实现低延迟响应。

特点：

低延迟：TTFT 需优化至 < 300ms
适用于实时应用：
- 实时聊天（如 ChatGPT）
- 语音识别（如智能助理）
- 视频会议字幕生成
挑战：
- 平衡 TTFT 和 TPOT
- 需优化网络传输以减少传输延迟

非流式场景（Batch Processing）

非流式任务指数据整体传输，处理完成后一次性返回，适用于批量分析或静态内容生成。

特点：

整体处理效率更高
适用于大规模数据处理：
- 文档摘要生成
- 大规模语音转文本
- 离线数据仓库分析
优化策略：
- 增大 Batch Size 提升吞吐（可达 10k tok/s 以上）
- 采用 GPU 并行计算降低总处理时间

7. 优化

降低 TTFT：预加载模型参数、优化 KV Cache
优化 TPOT：减少不必要计算，调整批次大小
提升吞吐：使用高效的 GPU/TPU 并行计算，优化计算图
流式 vs. 非流式权衡：
- 流式适用于低延迟需求，如对话 AI
- 非流式适用于批量处理，如离线分析

8. 总结

指标	计算方式	影响因素	适用场景
TTFT	请求到首 Token 响应时间	计算资源、网络延迟	流式场景（如对话 AI）
E2E Latency	请求到完整输出总时间	模型计算、网络传输	端到端应用
TPOT	总生成时间 / 输出 Token 数	硬件计算能力、优化策略	持续输出任务（如文章生成）
ITL	Token 生成间隔时间	负载波动、Token 依赖	实时 Token 生成分析
吞吐	每秒处理 Token 数	GPU 并行、Batch Size	高吞吐任务（如 API 服务）
流式	持续 Token 生成	低延迟优化	实时交互
非流式	计算完成后一次性输出	高吞吐优化	批量处理

style="display: none !important;">