vllm安装踩坑

今天是2024/7/18.

vllm0.5.2最近一周出了个不好搞的新issue,会遇到torch.ops._C没有rms_norm,或者没有reshape_and_cache_flash这两个属性的问题。

完整报错如下:
AttributeError: ‘_OpNamespace’ ‘_C_cache_ops’ object has no attribute ‘reshape_and_cache_flash’
AttributeError: ‘_OpNamespace’ ‘_C’ object has no attribute ‘rms_norm’

rms_norm issue链接
reshape_and_cache_flash issue链接

————————————————————

我没找到好的解决办法,issue里说的情况都是在用源码安装后遇到的,我直接在干净环境ubuntu20.24 cuda12.2下面pip安装,仍然遇到了问题。而且问题指向是torch里的class缺少属性,因此我猜测是torch的问题,vllm的每个版本又强制要求某个torch版本,因此我只能选择之前的vllm版本。

出错的安装环境:
torch2.3.1, vllm0.5.2

我回退了几个版本,用了pip install vllm0.4.0,它默认使用torch2.1.2,然后就不报错了。(如果不知道vllm有哪些版本,可以这样:pip install vllm3516356 随便打个数字,pip会报错说没有这个版本,然后告诉你可选择的所有版本)

下面是vllm官网quickstart里的例子,可用于测试vllm是否工作。

from vllm import LLM, SamplingParams
prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="facebook/opt-125m")

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
~                                                                                                                                                                                         
~                                                                            

——————————————————————
其他的错误

有些人虽然正常运行了,但是能看见warning: 没有flash attention。
你安装pip install flash-attn,运气不好又遇到这个:
ImportError: cannot import name ‘packaging’ from ‘pkg_resources’
原因是setuptools太新了,回退到pip install setuptools==69.5.1 --no-cache-dir就可以了。

<think>好的,我现在需要帮用户解决如何安装vLLM的问题。首先,我得回忆一下vLLM的相关知识。vLLM是一个高效的大型语言模型推理和服务库,专注于优化推理速度和内存使用。安装它通常需要Python环境和一些系统依赖。 用户可能是在Linux或者Mac上安装,所以需要分别考虑。先看系统要求,vLLM需要Python 3.7以上,最好用3.8或更高。然后是CUDA环境,因为vLLM依赖GPU加速,用户得安装合适的CUDA版本,比如11.8或12.1。 接下来,安装步骤。通常推荐用conda创建虚拟环境,避免依赖冲突。用户需要安装PyTorch,并且要确保PyTorch的CUDA版本和系统的一致。然后通过pip安装vLLM,可能需要指定版本或者从源码安装。 可能遇到的问题包括CUDA版本不匹配、缺少依赖库如NCCL,或者构建vLLM时缺少编译器工具。例如,用户如果遇到CUDA错误,需要检查CUDA_HOME环境变量是否正确设置,或者重新安装CUDA工具包。 另外,用户提到他们之前看过引用中的内容,比如Ollama的安装,可能对Docker也有需求。不过用户的问题是关于vLLM的直接安装,所以可能需要补充Docker安装的方法,或者说明如何在容器中部署。 还需要注意,如果用户想使用特定模型,比如Llama3,需要确保模型文件正确放置,并且vLLM支持该模型架构。可能还需要下载Hugging Face的模型权重。 总结一下,安装步骤大致分为:准备环境、安装依赖、安装vLLM、验证安装。同时要提醒用户注意CUDA版本兼容性,以及可能的常见错误解决方法。</think>### vLLM 安装教程 #### 一、系统要求 1. 操作系统:Linux(推荐Ubuntu 20.04/22.04)或 macOS(通过Docker) 2. Python 版本:3.8+ 3. CUDA 版本:11.8 或 12.1(需与PyTorch版本匹配) 4. GPU:NVIDIA GPU(需支持CUDA) #### 二、安装步骤 1. **创建虚拟环境**(推荐) ```bash conda create -n vllm python=3.8 -y conda activate vllm ``` 2. **安装PyTorch** ```bash # CUDA 11.8 pip3 install torch==2.1.2 torchaudio==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118 # CUDA 12.1 pip3 install torch==2.1.2 torchaudio==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu121 ``` 3. **安装vLLM** ```bash # 标准安装 pip install vllm # 或从源码安装(支持最新特性) git clone https://github.com/vllm-project/vllm.git cd vllm pip install -e . ``` 4. **验证安装** ```python python -c "from vllm import LLM; print('vLLM安装成功')" ``` #### 三、Docker部署(可选) ```bash # 拉取预构建镜像 docker run --gpus all -it --rm \ --shm-size=1g \ -p 8000:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:latest \ --model meta-llama/Meta-Llama-3-8B-Instruct ``` #### 四、常见问题解决 1. **CUDA版本不匹配**:通过`nvidia-smi`和`nvcc --version`检查CUDA版本 2. **缺少NCCL库**:安装`libnccl2`和`libnccl-dev` 3. **编译错误**:安装构建工具`apt-get install build-essential`
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值