【概要】
上一篇文章链接 基于Tri Dao提出的FlashAttentionV1实例说明之后,针对Tri Dao提出的FlashAttentionV2算法论文链接 做实例演示,详细对比了V2和V1的核心算法执行步骤的差异,红字higlight FlashAttentionV2算法的几个核心性能优化点:
- 优化内外循环次序,减少对SRAM和HBM读写次数
- 优化算法计算公式,减少非TensorCore的计算
- 优化ThreadBlock内Warp Partition,减少warp sync
- 引入Flash Decoding技术,在K/V方向多ThreadBlock并行计算
【实例演示】
FlashAttentionV2算法对比V1算法的优化实例说明
FlashAttentionV2算法优化实例说明