- 原文地址:DeepSpeed: Accelerating large-scale model inference and training via system optimizations and compression
- 原文作者:DeepSpeed Team Rangan Majumder , Vice President Andrey Proskurin , Corporate Vice President of Engineering
- 译文出自:dl_system
- 本文永久链接:DeepSpeed 通过系统优化加速大模型推理
- 译者:harleyszhang,译者对原文有所删改和优化。
DeepSpeed通过系统优化加速大模型推理
于 2023-05-16 10:45:00 首次发布
本文介绍了DeepSpeed框架如何通过系统优化来加速大模型的推理,包括推理适应性并行、推理优化内核、灵活的量化支持和模型压缩。DeepSpeed能够减少延迟、提高吞吐量并降低成本,支持多GPU推理,特别是对于Transformer模型的优化,通过深度融合和专用内核实现了性能提升。此外,DeepSpeed还提供了量化工具,如MoQ,以降低推理成本并保持模型精度。
摘要由CSDN通过智能技术生成