AAAI 2021最佳论文《Informer》作者:Transformer 最新进展

本文介绍了AAAI 2021会议上Transformer模型的最新研究,包括自注意力机制的变体,如Informer和Nyströmformer,更高效的模型架构,如深度自适应网络,以及Transformer在时序预测、计算机视觉等领域的应用。同时,文章还探讨了Transformer的内部工作机制和模型的攻击与防护。
摘要由CSDN通过智能技术生成

作者:周号益,彭杰奇

单位:北京航空航天大学

自2017年,Ashish Vaswani等人在《Attention Is All You Need》这篇文章种提出了Transformer模型后,BERT等工作极大地扩展了该模型在NLP等任务上的影响力。随之, 有关Transformer模型的改进和应用逐渐成为人工智能研究的一大热门。

回顾Transformer模型的起源,其最初作为有效顺序语言建模的新方法提出,虽然只使用自注意力机制(Self-attention Mechanism)进行网络结构建模,但它拥有更强的捕捉序列数据依赖的能力。此后得益于预训练模型的发展和普及,Transformer类模型极大地推动了自然语言处理的下游任务的发展。

虽然获得了广泛的应用,Transformer模型本身存在的内存开销和计算效率的瓶颈,也催生了大量改进Transformer以减小开销并提升效果的研究。

与此同时,Transformer模型也不再仅限于自然语言处理领域的应用,很多研究者将Transformer引入到推荐系统、时间序列预测、计算机视觉、图神经网络以及多模态等领域,在多个领域呈现热点研究的趋势。

在2月4日召开的AAAI 2021上同样涌现了大量和Transformer相关的研究,本文约覆盖40余篇论文,将从Self-Attention变体、更高效的模型架构、更深入的分析和更多样的应用几个方面对本次大会中的Transformer最新进展进行介绍。

01

自注意力机制的变体

自注意力机制是一种特殊的attention模型,简单概括是一种自己学习自己的表征过程。特别地,自注意力的计算/内存开销是随输入/输出的序列长度呈二次相关的,这导致大规模的Transformer模型必须使用大量计算资源,昂贵的训练和部署成本阻碍了模型的应用;同时这也会限制Transformer模型对于长序列数据的处理能力。因此研究自注意力机制的变体,实现高效Transformer成为了一个重要的研究方向。

Informer[1]基于自注意力机制中存在的查询稀疏性(attention的长尾分布),选择top-u进行query-key对的部分计算,提出了ProbSparse Self-Attention替代标准的Self-Attention,将自注意力机制的内存和计算开销从 减小到

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>