写在前面
大型语言模型(LLM)API,特别是遵循 OpenAI 规范的接口(无论是 OpenAI 官方、Azure OpenAI,还是 DeepSeek、Moonshot 等众多兼容服务),已成为驱动下一代 AI 应用的核心引擎。然而,随着应用规模的扩大和用户量的增长,仅仅关注模型的功能是不够的,API 的性能表现成为决定用户体验和系统稳定性的关键因素。
开发者和运维团队常常需要回答以下问题:
- 用户发送请求后,需要多久才能看到第一个字的响应?(首 Token 延迟 - Time To First Token, TTFT)
- 我的 API 服务同时能处理多少个用户的请求而不会崩溃或严重延迟?(最大并发数 - Max Concurrency)
- 在稳定运行状态下,API 每秒钟能成功处理多少个请求?(每秒查询率 - Queries Per Second, QPS