Flash-attention官方链接
https://github.com/Dao-AILab/flash-attention/tree/main
请按需查看详细设备支持情况,以及版本迭代日志
确定CUDA版本
nvidia-smi
根据CUDA、Python、PyTorch、OS版本下载whl
链接:https://github.com/Dao-AILab/flash-attention/releases
PS.
***ABI(Application Binary Interface)***标记定义了二进制代码的接口规范,特别是对于C/C++扩展模块。如果abi标记为True,意味着该whl包是使用了ABI稳定版本的Python C API进行编译的,而如果abi标记为False,意味着该包不是使用ABI稳定版本的Python C API进行编译的。
确认&安装ninja
安装ninja
pip install ninja
验证ninja
ninja --version
echo $?
如果返回结果为0,则代表ninja运作正常
若异常,则卸载,重新安装
pip uninstall -y ninja
pip install ninja
部署
pip install flash_attn-2.5.8+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl