vLLM部署Qwen1.5-32B-Chat

最新推荐文章于 2024-06-11 19:47:30 发布

Elwin Wong

最新推荐文章于 2024-06-11 19:47:30 发布

阅读量3k

点赞数 30

分类专栏：大模型文章标签：人工智能大模型 vLLM Qwen1.5 LLM

本文链接：https://blog.csdn.net/zhaoyuanh/article/details/137687069

版权

本文档详细介绍了在Ubuntu 20.04.2 LTS环境下，使用Docker和Docker Compose部署vLLM的Qwen1.5-32B-Chat模型。内容涵盖部署环境设置、模型文件下载、docker镜像构建、docker compose配置，以及在部署过程中遇到的显存不足和'Fatal Python error: Bus error'问题的解决方案。

摘要由CSDN通过智能技术生成

vLLM部署Qwen1.5-32B-Chat

部署环境

操作系统：Ubuntu 20.04.2 LTS

Docker：v24.0.0

Docker Compose：v2.17.3

GPU：NVIDIA A100-SXM4-80GB

Nvidia Driver Version: 535.154.05

CUDA Version: 12.2

部署过程

模型文件下载

下载地址：通义千问1.5-32B-对话 · 模型库 (modelscope.cn)

下载方法：

SDK下载

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen1.5-32B-Chat', cache_dir='/path/to/your/model/dir/') # cache_dir指定模型保存目录

Git下载

git clone  https://www.modelscope.cn/qwen/Qwen1.5-32B-Chat.git

docker镜像构建

克隆Qwen1.5仓库：

git clone https://github.com/QwenLM/Qwen1.5.git

构建镜像：

最低0.47元/天解锁文章

Elwin Wong

关注

30
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
vLLM部署Qwen1.5-32B-Chat

使用大模型推理和服务部署框架vLLM部署Qwen1.5-32B-Chat，并记录在这过程中遇到的问题及解决方法
复制链接

扫一扫

专栏目录