Transformer:
1. BERT,GPT等模型的基础,推动NLP进入BERT时代的起因。
2. 因其推出的self-attention被广泛应用于NLP和CV等领域。
3. 直接导致了NLP模型步入CV模型的发展趋势,模型大到普通玩家靠边站的地步(这也是最近小样本学习在学术界逐渐火热的原因之一)。
不管未来的发展趋势如何,Transformer作为现今NLP发展根基之一,是我们必须掌握和理解的模型,对于CV也一样,毕竟self-attention如今也广泛应用于CV领域。
在正式介绍Transformer之前,为保证可读性,读者需要提前了解下述技术和模型:
encoder-decoder模型
encoder-decoder
为最常用的机器翻译模型架构seq2seq
解决了输入输出不定长的问题,是理解文中有关mask内容的基础词向量
必备技能,NLP版的one-hot
attention
需要简单的了解attention
的工作原理high way
参考ResNet
本文的重点在于
self-attention
的提出position-wise encoding
解决了self-attention
无法捕捉token
(分词后的词语,为了方便理解,后文使用词语来代替token)间前后位置关系的缺点。