大模型常见依赖库的安装问题汇总

Liwx1014

已于 2025-03-13 14:32:33 修改

阅读量676

点赞数 5

分类专栏： vllm 文章标签： transformer python llama flash-attention 模型量化模型加速

于 2024-10-31 16:56:42 首次发布

本文链接：https://blog.csdn.net/Colin_xuan/article/details/143406397

版权

1 篇文章

订阅专栏

最好使用conda 创建虚拟环境,使用方法

conda create -n venv_name python=3.10
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

创建后，使用以下两条命令确保当前使用的 pip是虚拟环境下的，不然有可能会造成冲突

which python
which pip 
python -m pip  #此命令是确保使用虚拟环境下的pip

以下库在cuda-11.8 ToolKits 全部都能安装成功（尤其是flash-attention 避免了重新编译，节省大量时间）

这个库比较好安装，它不依赖torch

一般在加载模型如果使用 device_map = “auto” 时会用到，这个库的作用是用来加速训练的，在安装它之前最好先安装torch,不然也会自动下载最新torch版本

安装链接，从torch2.0后，在安装时会自动安装nvidia runtime，避免用户手动安装 CUDA ToolKits和配置环境变量

如果需要自定义CUDA开发、某些第三方库依赖CUDA编译等情况需要额外安装CUDA ToolKit

*Note:我自己测试中发现，我在已经安装完CUDA ToolKits=11.8的情况下，直接使用命令，会自动下载cuda12的运行库，如下图。这种情况下也能正常运行，原因见下图chatgpt的回答。

pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0

安装的cuda运行时库
此torch版本依赖的cuda版本

请添加图片描述

量化库一般依赖当前cuda、torch版本以及GPU型号、GPU计算能力，这里推荐两种安装方式

pip install --no-deps ./autoawq-0.2.5+cu118-cp310-cp310-linux_x86_64.whl  #安装时不下载依赖库

请添加图片描述

如果上下文（Token）很长的话，QK计算会呈平方式增长，计算快的主要原理是通过某种方式将本来在VRAM（显存）挪到更快SRAM中计算，安装时需要事先安装CUDA ToolKit，安装方式如下参看repo

pip install flash-attn --no-build-isolation --use-pep517  #需要很久
pip install whl文件  #这种方式很快，但是需要和torch、cuda、python都匹配

使用以下命令安装，此版本auto-gptq是基于cuda12.1（我的cuda toolkit=11.8）正常运行

pip install auto-gptq==0.6.0