flash attention2实测

u013250861

已于 2024-02-24 11:19:44 修改

阅读量96

点赞数

分类专栏： # LLM/部署文章标签： docker

于 2024-02-24 11:18:51 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/136269437

版权

LLM/部署专栏收录该内容

41 篇文章 21 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Flash Attention2的算法背景，旨在优化LLM的训练和推理，尤其是在GEMM部分的改进。通过使用NVIDIA提供的PyTorch Docker镜像进行测试，发现对于长序列和特定CV任务如ViT、Swin有显著加速效果。然而，在短序列、小batch情况下，加速效果不明显，甚至在Swin场景下表现稍逊于Flash_v1。作者建议对CUTLASS 3.0进行超参数搜索以进一步优化短序列大batch的情况。

摘要由CSDN通过智能技术生成

算法背景

出发点是优化加速LLM的训练和推理
相比于flash attention v1主要优化了GEMM部分，使用CUTLASS3.0

配置信息

配置名称	配置内容
硬件平台	A100 80g
docker	NV提供的pytorch镜像http://nvcr.io/nvidia/pytorch:22.09-py3
flash_v1 commit	v1.0.9 (https://github.com/Dao-AILab/flash-attention/releases/tag/v1.0.9)
flash_v2 commit	v2.0.0

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

u013250861

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flash attention2实测

测试的workload除了长序列，还测试了CV里面的场景，例如ViT和Swin等。尤其是Swin有短序列大batch的特点，结果如下 (B代表。, L代表seq_length, A代表num_heads, d代表。
复制链接

扫一扫