VLLM 本地部署 DeepSeek-R1 671B FP8

最新推荐文章于 2025-04-03 16:38:57 发布

小天才学习机打游戏

最新推荐文章于 2025-04-03 16:38:57 发布

阅读量2.9k

点赞数 14

文章标签： linux 人工智能运维 chatgpt php 开发语言语音识别

本文链接：https://blog.csdn.net/m0_59164520/article/details/145713440

版权

使用 Ubuntu22 镜像，并安装 GPU 550 驱动和 CUDA12.4

部署机器需求：

H20-3e 141G, 单机8卡可以部署满血版
L20 48G, 3机共24卡, 有点慢, 15token/s
H800 80G, 2机共16卡, 速度较快, 30token/s

检查几台机器互通, 并记录IP地址:
设置环境变量: export VLLM_HOST_IP=<ip, 192.168.xx.xx>

安装ray（vllm多机推理依赖ray）:

pip install ray -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

启动ray:
选一台作为master, 其IP为<master IP>

nohup ray start --block --head --port=6379 > ray.log &

其他都是worker

nohup ray start --block --address='<master IP>:6379' > ray.log &

升级NCCL至2.25.1, 2.21.5版本有问题

wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/libnccl2_2.25.1-1+cuda12.4_amd64.deb   dpkg -i libnccl2_2.25.1-1+cuda12.4_amd64.deb   mv /usr/local/lib/python3.10/dist-packages/nvidia/nccl/lib/libnccl.so.2 /usr/local/lib/python3.10/dist-packages/nvidia/nccl/lib/libnccl.so.2.bak   cp /usr/lib/x86_64-linux-gnu/libnccl.so.2.25.1 /usr/local/lib/python3.10/dist-packages/nvidia/nccl/lib/libnccl.so.2

格式化硬盘(模型文件642G，保留650G剩余空间) 并下载模型：https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main

安装vllm:

pip install vllm -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

启动vllm:

NCCL_NVLS_ENABLE=0 vllm serve /mnt/DeepSeek-R1 --enable-reasoning --reasoning-parser deepseek_r1 --trust-remote-code --tensor-parallel-size 8 --pipeline-parallel-size 2 --port=<port>

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述