DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

UnknownBody

于 2024-09-12 09:44:03 发布

阅读量95

点赞数 5

分类专栏： LLM Daily LLM Inference 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/142166370

版权

LLM Daily 同时被 2 个专栏收录

191 篇文章 4 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Inference

17 篇文章 0 订阅

订阅专栏

本文是LLM系列文章，针对《DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving》的翻译。

DistServe：解聚预填充和解码，以实现 Goodput 优化的大型语言模型服务

摘要
1 引言
2 背景和动机
3 权衡分析
4 方法
5 实现
6 评估
7 讨论
8 相关工作
9 结论

摘要

DistServe 通过解聚预填充和解码计算来提高大型语言模型（LLM）服务的性能。现有的 LLM 服务系统将这两个阶段放在一起，并在所有用户和请求中批量处理预填充和解码的计算。我们发现，这种策略不仅会导致强大的预填充-解码干扰，而且还耦合了两个阶段的资源分配和并行计划。LLM 应用程序通常强调每个阶段的单独延迟：预填充阶段的首次token时间（TTFT）和解码阶段每个请求的每个输出token的时间（TPOT）。在存在严格的延迟要求的情况下，现有系统必须优先考虑一种延迟而不是另一种延迟，或者过度预置计算资源以满足这两种延迟。DistServe 将预填充和解码计算分配给不同的 GPU，从而消除了预填充-解码干扰。鉴于应用程序的 TTFT 和 TPOT 要求，DistServe 共同优化了为每个阶段量身定制的资源分配和并行策略。DistServe 还根据服务集群的带宽对这两个阶段进行放置，以最大限度地减少解聚引起的通信。因此， DistServe 显著提高了 LLM 服务性能，即在每个 GPU 的 TTFT 和 TPOT 约束内可以提供的最大速率。我们的评估表明，在

了解本专栏

超级会员免费看

UnknownBody

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

DistServe 通过解聚预填充和解码计算来提高大型语言模型（LLM）服务的性能。现有的 LLM 服务系统将这两个阶段放在一起，并在所有用户和请求中批量处理预填充和解码的计算。我们发现，这种策略不仅会导致强大的预填充-解码干扰，而且还耦合了两个阶段的资源分配和并行计划。LLM 应用程序通常强调每个阶段的单独延迟：预填充阶段的首次token时间（TTFT）和解码阶段每个请求的每个输出token的时间（TPOT）。
复制链接

扫一扫