突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型,例如BERT,都是基于Transformer作为特征抽取器的模型,但这种模型有它的局限性,核心之一就是全注意力机制。
这种机制会带来序列长度二次依赖限制,主要表现在存储方面。
为了解决这个问题,团队提出了一种名为Big Bird的稀疏注意力机制。
作为更长序列上的Transformers,Big Bird采用稀疏注意力机制,将二次依赖降至线性。
下面这张图片,展示了Big Bird所用的注意力机制模块构建。
其中,白色的部分代表着注意力的空缺。
图(a)表示r=2的随机注意力机制,图(b)表示w=3的局部注意力机制,图(c)表示g=2的全局注意力机制,图(d)则是前三者融合起来的Big Bird模型。