目录
注意力机制综述
FlashAttention
一种快速、内存高效的注意力算法来了,被命名为 FlashAttention。通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍。
https://blog.csdn.net/jacke121/article/details/125344500
.
AttentionLayer
参考:
目录
一种快速、内存高效的注意力算法来了,被命名为 FlashAttention。通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍。
https://blog.csdn.net/jacke121/article/details/125344500
.
参考: