FlashAttention(flash-attn)安装

FlashAttention(flash-attn)安装

Flash Attention是一种注意力算法,更有效地缩放基于transformer的模型,从而实现更快的训练和推理。由于很多llm模型运行的时候都需要安装flash_attn,比如Llama3,趟了不少坑,最后建议按照已有环境中Python、PyTorch和CUDA的版本精确下载特定的whl文件安装是最佳方式。

FlashAttention的论文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
FlashAttention的github地址,建议安装之前读一下官方文档。
在这里插入图片描述
官方给出的安装依赖:

  • CUDA 11.6 and above.
  • PyTorch 1.12 and above.
  • Make sure that ninja is installed and that it works correctly (e.g. ninja --version then echo $? should return exit code 0). If not (sometimes ninja --version then echo $? returns a nonzero exit code), uninstall then reinstall ninja (pip uninstall -y ninja && pip install ninja). Without ninja, compiling can take a very long time (2h) since it does not use multiple CPU cores. With ninja compiling takes 3-5 minutes on a 64-core machine.

1. 最终的成功版本

按照自己的Pytorch版本CUDA版本Python版本来选择对应版本的flash-attn,否则会默认下载最新版。
个人趟坑后推荐的pytorch版本大于2.2,CUDA版本为11.8。
安装顺序:CUDA Toolkit→PyTorch→FlashAttention

  1. CUDA Toolkit下载地址:https://developer.nvidia.com/cuda-toolkit-archive
  2. 特定版本的PyTorch下载地址:https://pytorch.org/get-started/previous-versions/
  3. FlashAttention下载地址:https://github.com/Dao-AILab/flash-attention/releases/

1.1 安装/更新CUDA Toolkit

最详细的安装教程请务必参考NVIDIA CUDA Installation Guide for Linux,非常保姆的教程,前前后后的依赖和处理都很详尽,但英文的阅读和长度也很感人,以下是我趟出来的一套简单流程。

1.1.1 下载CUDA Toolkit

以终为始我们需要的是cuda-11.8,那么直接去CUDA Toolkit下载地址下载特定版本。

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
1.1.2 安装CUDA Toolkit
#登录管理员,使用root权限
su 
# 修改权限
chmod +x cuda_11.8.0_520.61.05_linux.run
#安装
./cuda_11.8.0_520.61.05_linux.run --no-opengl-libs
#退出root
exit

执行后的弹框输入:accept,然后按Enter键继续。第二页选中Driver,按Enter键,再选中Install,按Enter键进行安装。
默认安装路径,那么将会安装在/usr/local/cuda-11.8/路径下。

1.1.3 设置环境变量
export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64/${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

1.2 安装PyTorch

已经安装好了cuda-11.8后,并加入了环境变量,nvcc -V显示的是为cuda-11.8则可以正式开始安装PyTorch v2.2.2。(之所是2.2.2版本也是因为之前的1.2版本太老导致FlashAttention虽然看起来安装成功,但用起来仍然报错。查了很久之后,安装成功的人都推荐PyTorch v2.2.2)

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118

尽管官方给出安装PyTorch用conda install也可,但我没成功/(ㄒoㄒ)/~~,可能是channel的问题,whatever, 还是用pip install吧。

1.3 安装 FlashAttention

至此,已经安装好了cuda-11.8PyTorch v2.2.2python -V查看当前的Python版本,就可以在FlashAttention下载地址选择对应的whl文件用pip install来安装了。以flash_attn-2.5.3+cu118torch2.2cxx11abiFALSE-cp39-cp39-linux_x86_64.whl为例:

#下载
wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.3/flash_attn-2.5.3+cu118torch2.2cxx11abiFALSE-cp39-cp39-linux_x86_64.whl
# pip安装
pip install flash_attn-2.5.3+cu118torch2.2cxx11abiFALSE-cp39-cp39-linux_x86_64.whl
### 安装 `flash-attn` 库于 Windows 11 #### 准备工作 确保已安装 Python 和 pip 的最新版本。对于 CUDA 支持,需确认 NVIDIA 驱动程序已经更新到支持目标 CUDA 版本的状态。 #### 安装 Git 并配置环境变量 由于在尝试安装过程中可能涉及到通过 git 获取资源的操作,因此需要先安装并设置好 Git 工具及其路径至系统的环境变量中[^2]。 #### 安装 PyTorch 及其依赖项 考虑到 `flash-attn` 对 GPU 加速的支持取决于 PyTorch 是否正确编译了对应的 CUDA 后端,在安装前应优先选择与本地 CUDA 版本相匹配的 PyTorch 发行版。可以通过访问官方文档来查找适合当前操作系统的预构建二进制包,并按照指示完成安装过程。 ```bash conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch ``` 上述命令假设使用的是 Anaconda 或 Miniconda 来管理虚拟环境;如果不是,则可以考虑利用 pip 安装相应版本的 PyTorch 而不是 conda 渠道。 #### 安装 `flash-attn` 一旦所有前置条件都满足之后,就可以继续执行如下指令来进行 `flash-attn` 的安装: ```bash pip install flash-attn --upgrade ``` 如果遇到任何关于找不到 nvcc 编译器的问题,这通常意味着系统未能找到 CUDA Toolkit 的位置。此时应该验证 `%CUDA_HOME%` 环境变量是否指向正确的目录,并且该路径下的 bin 文件夹已被加入 PATH 中[^1]。 #### 测试安装成功与否 最后一步是编写一段简单的测试脚本来检验 `flash-attn` 是否能够正常运作。创建一个新的 .py 文件并将下面的内容粘贴进去: ```python import torch from flash_attn import FlashAttention # 创建一个模拟输入张量 input_tensor = torch.randn(8, 1024, 64).cuda() # 初始化FlashAttention对象 attention_layer = FlashAttention().cuda() output = attention_layer(input_tensor) print(output.shape) ``` 运行此脚本以查看是否有错误发生以及输出形状是否符合预期。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值