继DeepMind的新设计MoD大幅提升了 Transformer 效率后,谷歌又双叒开始爆改了!
与之前荣登Nature子刊的life2vec不同,谷歌的新成果Infini-attention机制(无限注意力)将压缩内存引入到传统的注意机制中,并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。
这让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比。(相当于一个存放100本书的图书馆,通过新技术能存储11400本书)
对比几种不同Transformer模型可处理上下文的长度和内存占用情况
目前,关于 Transformer 的改进非常火爆,是当前学术研究的热点之一,有丰富的研究素材和灵感可供我们参考。除Infini-attention外,还有很多Transformer改进方案效果拔群。
本文整理了22篇Transformer最新的改进方案,都是大佬团队出品,开源的都附上了代码方便复现,希望能给各位的论文加加速。
论文原文以及开源代码需要的同学看文末