大语言模型(LLM)正在迅速成为人工智能应用的核心,但其巨大的能耗和碳排放问题也日益凸显。为此,研究人员开发了DynamoLLM系统,可以在保证性能的同时大幅降低LLM推理集群的能耗。
LLM推理集群面临的挑战
随着ChatGPT等生成式AI的普及,LLM推理服务每天要处理数以百万计的请求。为满足这一巨大需求,云服务提供商不得不部署大量高性能GPU服务器。然而,这些服务器不仅价格昂贵,还极其耗电,导致能源成本和碳排放激增。
以往针对传统数据中心的节能技术并不适用于LLM推理场景。研究人员发现,LLM推理工作负载具有独特的特征:
-
不同请求的计算特性差异巨大。短输入长输出的请求与长输入短输出的请求对硬件资源的需求截然不同。
-
工作负载波动剧烈。日间高峰期与夜间低谷期的负载可能相差10倍以上。
-
不同模型和服务对延迟的要求各不相同。
这些特征使得为LLM推理集群设计一个统一的能效优化方案变得异常困难。
DynamoLLM:自动调节多个维度实现能效优化
为解决上述挑战,研究人员开发了DynamoLLM系统。该系统可以根据当前工作负载的特征,自动调节以下几个关键参数:
- 推理服务器实例数量
- 模型并行度(单个模型使用的GPU数量)
- GPU频率
DynamoLLM采用层次化的控制架构:
- 集群管理器负责根据预测的负载调整各类请求的资源池大小。
- 池管理器为每