解决vllm推理框架内在开启多显卡时报错问题

泰山AI

已于 2024-07-09 13:59:50 修改

阅读量1.8k

点赞数 7

分类专栏： AI大模型文章标签： python linux 人工智能

于 2024-03-26 19:53:04 首次发布

本文链接：https://blog.csdn.net/weixin_40986713/article/details/137043339

版权

AI大模型专栏收录该内容

87 篇文章 33 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了在vLLM开启多显卡并行模式时遇到的错误处理方法，包括未安装cuda-toolkit、cuda与cupy版本不匹配以及未设置CUDA环境变量等问题。详细步骤涉及卸载nouveau驱动，安装cuda-toolkit，并提供了解决驱动与cuda版本不匹配的建议。

摘要由CSDN通过智能技术生成

前言

vLLM在开启多显卡并行模式下，-tp 2 或者 --tensor-parallel-size 2，运行报错提示如下：

The above exception was the direct cause of the following exception:

Traceback (most recent call last): File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main return _run_code(code, main_globals, None, File "/usr/lib/python3.8/runpy.py", line 87, in</