Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3
作者丨DefTruth@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/668888063
本文首先从Online-Softmax的角度切入,由浅入深地讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理;然后,进一步详细讲解了FlashAttention-1和FlashAttention-2算法中各自的优化点、FlashAttention IO复杂度分析以及适用场景、FlashAttention在分布式训推中的应用;并且,通过图解的方式通俗易懂地讲解了FlashAttention种关于