减少windows下flash-attention的安装时间

最新推荐文章于 2025-04-02 12:03:45 发布

ls077

最新推荐文章于 2025-04-02 12:03:45 发布

阅读量5.1k

点赞数 4

文章标签： windows

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ls077/article/details/137752819

版权

今天试着在笔记本上安装flash-attention，消耗时间太久。所以记录一下优化方式。

笔记本：hp战66，i7-1355U+RTX2050+32G

flash-attention没有windows版本的预编译包，需要下载源码后自己编译。

进入conda虚拟环境：

conda activate mamba

此环境里已经包含了torch、transformers、ninja、wheel等等包。

git clone https://githubcom/Dao-AILab/flash-attention
cd flash-attention

pip install .

以上采用默认安装方式时，编译x.cu文件仅启动了2个线程，1个文件需要20多分钟，而cu文件有48个！

几经折腾，发现作者已经在setup.py里包含了调整编译线程数的环境参数了。

根据任务管理器的信息，32G的内存已经被用了8G，而监控发现编译程序运行时内存峰值在3G左右，所以可以使用8个线程进行编译。

set MAX_JOBS=8

set NVCC_THREADS=1

pip install .

使用此方式，用4个小时左右成功安装了flash-attention，生成的flash_attn_2_cuda.cp310-win_amd64.pyd有385MB。

注：我直接在build\temp.win-amd64-cpython-310\Release目录下使用不同线程数执行ninja，线程数过多时会因内存不足而失败。

博客等级

码龄23年

4
原创

31
点赞

56
收藏

8
粉丝

关注

私信

热门文章

最新评论

windows系统下配置Mamba环境
重糖爱好者: 请问你测试过了吗，影响大吗
windows系统下配置Mamba环境
han_jie2023: 请问有在window上进行训练和推理吗，这些修改对速度上有影响吗
windows系统下配置Mamba环境
off-road572: 你好，我的第四部安装不成功，请问这是怎么回事？ERROR: triton-2.0.0-cp310-cp310-win_amd64.whl is not a supported wheel on this platform.
windows系统下配置Mamba环境
ahoutong: 请问将“csrc\selective_scan\selective_scan_fwd_kernel.cuh中selective_scan_fwd_launch和csrc\selective_scan\selective_scan_bwd_kernel.cuh中selective_scan_bwd_launch里最内层的匿名函数内容抽取为独立方法“ 这一步骤的文件是在哪里更改呀？
windows系统下配置Mamba环境
ls077: causal-conv1d可以不安装，mamba_ssm\modules\mamba_simple.py的Mamba类的forward方法中，有一条路径是用nn.Conv1d代替这个的，然后核心用的cuda版本。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。