第7篇:Transformer的几种高效自注意力(降低计算复杂度的方法)! |
文章目录
- 一. 快速回顾一下注意力机制
- 二. 有哪些技术可以用来提高注意力的效率
-
- 1. Sparse attention
- 2. Reformer
- 3. Efficient Attention
- 4. Linear Kernelized Attention (Linear Attention using Kernels)
- 5. Linear Attention using Taylor-Expansion
- 6. Linformer (Linear Attention using Low-Rank Approximation)
- 7. Longformer (Linear Attention with Longformer)
- 7. BigBird (Linear Attention with BigBird)
- 二. 参考文献
一. 快速回顾一下注意力机制
- 大家好,今天的视频是我们Transformer和注意力机制系列的重要部分。我们将深入探讨如何优化注意力机制以提高其效率。众所周知,原始注意力机制的内存和计算需求会随着序列长度的增加呈二次增长,使得其在处理较长序列时变得不切实际。为了解决这个问题,研究人员开发了多种方法来简化注意力机制的复杂性。在本视频中,我们将探索一些应对这一挑战的著名模型。
- 首先,让我们快速回顾一下注意力机制。我们从三个矩阵Q、K和V开始,每个矩阵的大小为