
作者:周号益,彭杰奇
单位:北京航空航天大学
自2017年,Ashish Vaswani等人在《Attention Is All You Need》这篇文章种提出了Transformer模型后,BERT等工作极大地扩展了该模型在NLP等任务上的影响力。随之, 有关Transformer模型的改进和应用逐渐成为人工智能研究的一大热门。
回顾Transformer模型的起源,其最初作为有效顺序语言建模的新方法提出,虽然只使用自注意力机制(Self-attention Mechanism)进行网络结构建模,但它拥有更强的捕捉序列数据依赖的能力。此后得益于预训练模型的发展和普及,Transformer类模型极大地推动了自然语言处理的下游任务的发展。
虽然获得了广泛的应用,Transformer模型本身存在的内存开销和计算效率的瓶颈,也催生了大量改进Transformer以减小开销并提升效果的研究。
与此同时,Transformer模型也不再仅限于自然语言处理领域的应用,很多研究者将Transformer引入到推荐系统、时间序列预测、计算机视觉、图神经网络以及多模态等领域,在多个领域呈现热点研究的趋势。
在2月4日召开的AAAI 2021上同样涌现了大量和Transformer相关的研究,本文约覆盖40余篇论文,将从Self-Attention变体、更高效的模型架构、更深入的分析和更多样的应用几个方面对本次大会中的Transformer最新进展进行介绍。
01
自注意力机制的变体
自注意力机制是一种特殊的attention模型,简单概括是一种自己学习自己的表征过程。特别地,自注意力的计算/内存开销是随输入/输出的序列长度呈二次相关的,这导致大规模的Transformer模型必须使用大量计算资源,昂贵的训练和部署成本阻碍了模型的应用;同时这也会限制Transformer模型对于长序列数据的处理能力。因此研究自注意力机制的变体,实现高效Transformer成为了一个重要的研究方向。
Informer[1]基于自注意力机制中存在的查询稀疏性(attention的长尾分布),选择top-u进行query-key对的部分计算,提出了ProbSparse Self-Attention替代标准的Self-Attention,将自注意力机制的内存和计算开销从 减小到

本文介绍了AAAI 2021会议上Transformer模型的最新研究,包括自注意力机制的变体,如Informer和Nyströmformer,更高效的模型架构,如深度自适应网络,以及Transformer在时序预测、计算机视觉等领域的应用。同时,文章还探讨了Transformer的内部工作机制和模型的攻击与防护。
最低0.47元/天 解锁文章
96

被折叠的 条评论
为什么被折叠?



