千问模型flash-attention加速框架的部署

AI正在学习中

于 2024-05-14 16:47:36 发布

阅读量371

点赞数 4

分类专栏：深度学习-大模型文章标签： python chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42118737/article/details/138859971

版权

深度学习-大模型专栏收录该内容

12 篇文章 1 订阅

订阅专栏

前言

千问模型如果不安装flash-attention，推理速度会很慢，这个1.8B模型上看不出来，7B模型就非常明显了。

7B模型光启动起来，就差不多占用15GB的显存了，对于我这个电脑就已经在爆显存的边缘了。

1、简介

为了加速推理，以及降低显存占用，千问官方提供了flash-attention的方式进行加速。flash-attention的加速原理如下，主要是通过降低SRAM和HBM之间的数据交换次数来提高推理速度，有兴趣的可以进一步学习：

2、flash-attention安装

千问提供的方式：

在实际的执行过程中，会出现报错：

以下是正确的安装方法：

先安装packaging和nanja库：

pip install packaging
pip install ninja

到对应的网址去下载预编译文件：

Linux环境：

https://github.com/Dao-AlLab/flash-attention/releases

Releases · Dao-AILab/flash-attention (github.com)

windows环境：

Releases · bdashore3/flash-attention · GitHub

一定要选择适合自己cuda、torch已经python版本的包：

切换对应的文件夹，执行：

pip install "flash_attn-2.5.7+cu122torch2.2cxx11abiTRUE-cp311-cp311-linux_x86_64.whl"

windows系统，除此之外还要安装C++扩展，使用以下的网址，

Microsoft C++ 生成工具 - Visual Studio

下载编译工具：

再安装rotary库：

cd到flash-attention\csrc\rotary目录下执行：

# 设置同时运行任务数量为4
set MAX_JOBS=4
# 安装rotary库
python setup.py install

执行完成：

3、测试

安装到这一步，就算安装完成了，现在重新启动模型的脚本。

启动脚本：

仍然会出现警告信息...（可能是windows系统不兼容的原因，暂时未找到可用办法）

查看GPU的占用率：

显存确实是降低了。证明flash_attention还是有效果的。

进行对话测试：

对话变得比之前要快速一些，但也不是特别明显。

查看GPU占用：

启动时：

推理时：

还是有很明显的降低显存和加速的作用的。

AI正在学习中

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
千问模型flash-attention加速框架的部署

本文记录了windows系统安装flash-attention，以加速通义千问模型的推理速度，降低显存占用的安装部署过程
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。