大语言模型参数指标详解

(这张图是AI生成的,看着还行~) 

1. TTFT (首Tokens时延,Time to First Token)

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间,直接影响用户对响应速度的感知,特别是在流式输出场景(如对话 AI)中至关重要。

影响因素:

  • 模型推理时间:复杂度越高,首 Token 生成时间越长

  • 计算资源:高性能 GPU/TPU 可减少计算时延

  • 网络延迟:传输和 API 调用的延迟会影响 TTFT

  • 批处理(Batch Size):单个请求的计算资源分配会影响 TTFT

2. E2E Latency (端到端时延,End-to-End Latency)

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时,包括网络传输、计算、序列生成等全流程。

计算方式:

端到端时延 = 首 Token 时延(TTFT)+ 后续 Token 生成总时间

影响因素:

  • 模型计算开销:影响整体生成速度

  • 流式 vs. 非流式:流式输出可以降低感知延迟

  • 并行计算能力:影响批量请求处理效率

3. TPOT(Time Per Output Token)

TPOT 表示模型生成单个 Token 的平均耗时,反映持续输出的效率。

计算方式:

TPOT = 总生成时间 / 输出 Token 数量

影响因素:

  • 硬件计算能力:影响 Token 生成速度

  • 序列长度:长文本可能增加计算复杂度

  • 优化策略:如 KV Cache 可减少计算冗余

4. ITL(Token 延时,Inter-Token Latency)

ITL 指的是生成每个 Token 的实际间隔时间,通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别:

  • TPOT 是所有 Token 的平均生成时间

  • ITL 关注单步生成的实时波动

影响因素:

  • 负载波动:计算资源占用变化可能导致 ITL 不稳定

  • Token 依赖:不同上下文对 Token 生成时间有影响

5. 吞吐(Throughput)

吞吐量指的是单位时间内系统处理的 Token 总数(如 Tokens/秒)

关键指标:

  1. Request Throughput (req/s):每秒处理的请求数

    • 计算方式:总请求数 / 运行时间

    • 应用场景:高并发 API 服务

  2. Input Token Throughput (tok/s):每秒处理的输入 Token 数量

    • 计算方式:输入 Token 总数 / 运行时间

    • 应用场景:长文本解析、大模型输入

  3. Output Token Throughput (tok/s):每秒生成的输出 Token 数量

    • 计算方式:输出 Token 总数 / 运行时间

    • 应用场景:文本生成、对话 AI

  4. Total Token Throughput (tok/s):总吞吐量

    • 计算方式:(输入+输出 Token 总数)/ 运行时间

    • 应用场景:端到端流水线性能评估

影响因素:

  • 计算硬件:GPU/TPU 并行能力直接影响吞吐量

  • 批处理(Batch Size):较大批次可提高吞吐量,但可能影响时延

  • 模型优化:如混合精度计算(FP8、FP16)可提升性能

6. 流式场景与非流式场景

流式场景(Streaming)

流式输出指数据以连续的小块形式实时传输,生成后立即发送,客户端可逐步接收,实现低延迟响应。

特点
  • 低延迟:TTFT 需优化至 < 300ms

  • 适用于实时应用

    • 实时聊天(如 ChatGPT)

    • 语音识别(如智能助理)

    • 视频会议字幕生成

  • 挑战

    • 平衡 TTFT 和 TPOT

    • 需优化网络传输以减少传输延迟

非流式场景(Batch Processing)

非流式任务指数据整体传输,处理完成后一次性返回,适用于批量分析或静态内容生成。

特点
  • 整体处理效率更高

  • 适用于大规模数据处理

    • 文档摘要生成

    • 大规模语音转文本

    • 离线数据仓库分析

  • 优化策略

    • 增大 Batch Size 提升吞吐(可达 10k tok/s 以上)

    • 采用 GPU 并行计算降低总处理时间

7. 优化

  • 降低 TTFT:预加载模型参数、优化 KV Cache

  • 优化 TPOT:减少不必要计算,调整批次大小

  • 提升吞吐:使用高效的 GPU/TPU 并行计算,优化计算图

  • 流式 vs. 非流式权衡

    • 流式适用于低延迟需求,如对话 AI

    • 非流式适用于批量处理,如离线分析

8. 总结

指标计算方式影响因素适用场景
TTFT请求到首 Token 响应时间计算资源、网络延迟流式场景(如对话 AI)
E2E Latency请求到完整输出总时间模型计算、网络传输端到端应用
TPOT总生成时间 / 输出 Token 数硬件计算能力、优化策略持续输出任务(如文章生成)
ITLToken 生成间隔时间负载波动、Token 依赖实时 Token 生成分析
吞吐每秒处理 Token 数GPU 并行、Batch Size高吞吐任务(如 API 服务)
流式持续 Token 生成低延迟优化实时交互
非流式计算完成后一次性输出高吞吐优化批量处理

style="display: none !important;">

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值