LLM大模型训练加速利器FlashAttention详解

最新推荐文章于 2025-03-25 19:56:13 发布

MLTalks

最新推荐文章于 2025-03-25 19:56:13 发布

阅读量6.6k

点赞数 5

分类专栏：大模型文章标签： pytorch prompt

本文链接：https://blog.csdn.net/qinduohao333/article/details/131449876

版权

大模型专栏收录该内容

34 篇文章

订阅专栏

FlashAttention是一种针对Transformer模型中自注意力机制优化的方法，尤其关注GPU显存的使用。通过softmax的tiling展开和反向过程中的重计算减少显存访问次数和提高计算效率。此外，利用CUDA编程实现融合内核进一步提升了计算速度。该方法旨在解决长序列处理时的计算复杂度和内存消耗问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FlashAttention论文地址：https://arxiv.org/pdf/2205.14135.pdf

1. 背景介绍

因为Transformer的自注意力机制(self-attention)的计算的时间复杂度和空间复杂度都与序列长度有关，所以在处理长序列的时候会变的更慢，同时内存会增长更多。通常的优化是针对计算复杂度(通过 $F L OP s$ 数衡量), 优化会权衡模型质量和计算速度。

在FlashAttention中考虑到attention算法也是IO敏感的，通过对GPU显存访问的改进来对attention算法的实现进行优化。如下图，在GPU中片上存储SRAM访问速度最快，对应的HBM(high bandwidth memory)访问速度较慢，为了加速要尽量减少HBM的访问次数。

在这里插入图片描述

2. 详细解读

2.1 标准的attention算法实现

首先回顾下标准的attention算法实现，有 $Q, K, V$ 三个矩阵，计算有以下三步，都是跟HBM交互：

$\begin{gather*} S = QK^T \\ P = softmax(S) \\ O = PV \end{gather*}$

在这里插入图片描述

2.2 FlashAttention算法实现

FlashAttention算法实现的关键在于以下三点：

softmax的tiling展开，可以支持softmax的拆分并行计算，从而提升计算效率
反向过程中的重计算，减少大量的显存占用，节省显存开销。
通过CUDA编程实现fusion kernel

2.2.1 softmax展开(tiling)

基本softmax。在计算 $x_i$ 的值的时候需要用到所有的 $X=\{x_1, ..., x_N\}$ 值，计算公式如下：

$\begin{gather*} X = \left[ x_1, ..., x_N \right] \\ f(X) = \left[ e^{x_1}, ..., e^{x_N} \right] \\ l(X) = \sum f(X) \\ softmax(X) = \frac{f(X)}{l(X)} = softmax({x_1, ..., x_N}) = \left\{ \frac{e^{x_i}}{\sum^N_{j=1}e^{x_j}} \right\}^N_{i=1} \\ \end{gather*}$

安全(safe) softmax。由于 $e^{x_i}$ 很容易溢出, 比如FP16支持范围是 $2^{-24} \sim 65504$ ，当 $x_i \ge 11$ 的时候， $e^{x_i}$ 会超过float16的有效位。为解决这个问题提出 safe softmax, 对每个 $x_i$ 都减去一个 $max^N_{j=1}(x_j)$ , 使得 $x_i - m \ll 0$ , 这时幂操作符对负数输入的计算是准确且安全的。

$\begin{gather*} m(X) = max^N_{j=1}(x_j) softmax(X) = \frac{e^{x_i - m(X)}}{\sum_{j=1}^{N}e^{x_j - m(X)}} m(X) = max^N_{j=1}(x_j) \end{gather*}$

Safe softmax tiling。对于 $X$ 分为两组情况进行说明，其中 $X=\left[ X^{(1)}, X^{(2)}\right]$ 。

$\begin{gather*} m(X) = m(\left[ X^{(1)}, X^{(2)} \right]) = max(m(X^{(1)}), m(X^{(2)})) \\ f(X) = \left[ e^{m(X^{(1)}) - m(X)} f(X^{(1)}), e^{m(X^{(2)}) - m(X)} f(X^{(2)}) \right] \\ l(X) = l(\left[ X^{(1)}, X^{(2)} \right]) = e^{m(X^{(1)}) - m(X)}f(X^{(1)}) + e^{m(X^{(2)}) - m(X)} f(X^{(2)}) \\ softmax(X) = \frac{f(X)}{l(X)} \\ \end{gather*}$

safe softmax基本计算示例

$\begin{gather*} X = \left[ 1, 2, 3, 4 \right]\\ m(X) = 4\\ f(X) = \left[ e^{1-4}, e^{2-4}, e^{3-4}, e^{4-4} \right] \\ l(X) = \sum f(X) \\ softmax(X) = \frac{f(X)}{l(X)} \\ \end{gather*}$

safe softmax tiling计算示例（结果跟基本计算示例一致）

$\begin{gather*} X = \left[ 1, 2, 3, 4 \right] = \left[ X^{(1)}, X^{(2)} \right], m(X) = 4 \\ X^{(1)} = \left[ 1, 2 \right], m(X^{(1)}) = 2 \\ X^{(2)} = \left[ 3, 4 \right], m(X^{(2)}) = 4 \\ f(X^{(1)}) = \left[ e^{1-2}, e^{2-2} \right] \\ f(X^{(2)}) = \left[ e^{3-4}, e^{4-4} \right] \\ f(X) = \left[ e^{2-4}f(X^{(1)}), e^{4-4}f(X^{(2)}) \right] = \left[ e^{1-4}, e^{2-4}, e^{3-4}, e^{4-4} \right] \\ l(X) = \sum f(X) \\ softmax(X) = \frac{f(X)}{l(X)} \\ \end{gather*}$