DeepSpeed-MII 深度学习推理优化库指南

最新推荐文章于 2024-08-09 07:45:15 发布

余纳娓

最新推荐文章于 2024-08-09 07:45:15 发布

阅读量463

点赞数 16

本文链接：https://blog.csdn.net/gitblog_01052/article/details/141045938

版权

DeepSpeed-MII 深度学习推理优化库指南

DeepSpeed-MIIMII makes low-latency and high-throughput inference possible, powered by DeepSpeed.项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeed-MII

1. 项目介绍

DeepSpeed-MII 是由 Microsoft 开发的一个开源 Python 库，专注于提供高效低延迟的深度学习模型推理服务。它使得强大的模型不仅在性能上得到显著提升，而且在成本控制方面变得更加易用和可行。通过集成 DeepSpeed-Inference 的一系列优化技术，如 Blocked KV Caching、Continuous Batching、Dynamic SplitFuse 和 High Performance CUDA Kernels，MII 能够显著降低诸如大科学项目 Bloom 176B 这样的模型的延迟，并减少超过 40% 的运行成本。此外，MII 支持包括 Stable Diffusion 在内的多种流行模型，实现更低的延迟和更高的性价比。

2. 项目快速启动

安装

安装 DeepSpeed-MII 可以通过 pip 快速完成：

pip install deepspeed-mii

非持久性部署

以下代码展示了如何使用非持久性管道部署一个支持的模型：

import deepspeed.mii.nonpersistent as npipeline
model = npipeline.instantiate("bert-base-uncased")
inputs = {"input_ids": ..., "attention_mask": ...}  # 根据模型输入需求填充数据
outputs = model(**inputs)

持久性部署

对于长期运行的服务，可以创建一个持久性部署：

import deepspeed.mii.persistent as ppipeline
model_server = ppipeline.start_pipeline("bert-base-uncased", port=8000)
inputs = {"input_ids": ..., "attention_mask": ...}
outputs = model_server.predict(inputs)