- Time To First Token (TTFT): 首 Token 延迟,即从输入到输出第一个 token 的延迟。在在线的流式应用中,TTFT 是最重要的指标,因为它决定了用户体验。
-
TTFT P99是指首词元时间(TTFT)的第99百分位数(P99)。在流式应用中,TTFT指的是语言大模型(LLM)返回第一个词元前所需的时间。P99表示在所有请求中,有99%的请求的响应时间小于或等于这个数值,即1%的请求响应时间会超过这个数值。
优化TTFT P99对于提升用户的等待体验非常重要。在实际应用中,优化TTFT有助于减少用户等待时间,提升整体用户体验。通过减少输出比减少输入更有效,因为减少输出可以更快地返回结果。此外,了解不同LLM产品在不同工作负载下的表现,可以帮助用户根据具体任务做出明智的决策
- Time Per Output Token (TPOT): 每个输出 token 的延迟(不含首个Token)。在离线的批处理应用中,TPOT 是最重要的指标,因为它决定了整个推理过程的时间。
- Latency:延迟,即从输入到输出最后一个 token 的延迟。
Latency = (TTFT) + (TPOT) * (the number of tokens to be generated).
Latency 可以转换为 Tokens Per Second (TPS):TPS = (the number of tokens to be generated) / Latency。
- Throughput:吞吐量,即每秒针对所有请求生成的 token 数。以上三个指标都针对单个请求,而吞吐量是针对所有并发请求的。
- End to End(e2e):端到端的推理过程的时延。
将 LLM 应用分为两种:
- 在线流式应用:对 TTFT、TPOT、Latency 敏感,需要尽可能快的生成 token。
- 离线批量应用:对 Throughput 敏感,需要在单位时间内尽可能多的生成 token。
而实际在某种应用(如在线流式应用),应该在Latency 和 Throughput 之间进行权衡,提高 Throughtput 可以提高单个 GPU 承担的并发数,从而降低推理成本。