简析Transformer(attention is all you need)

Transformer:
1. BERT,GPT等模型的基础,推动NLP进入BERT时代的起因。
2. 因其推出的self-attention被广泛应用于NLP和CV等领域。
3. 直接导致了NLP模型步入CV模型的发展趋势,模型大到普通玩家靠边站的地步(这也是最近小样本学习在学术界逐渐火热的原因之一)。
不管未来的发展趋势如何,Transformer作为现今NLP发展根基之一,是我们必须掌握和理解的模型,对于CV也一样,毕竟self-attention如今也广泛应用于CV领域。

在正式介绍Transformer之前,为保证可读性,读者需要提前了解下述技术和模型:

  1. encoder-decoder模型 encoder-decoder为最常用的机器翻译模型架构
  2. seq2seq   解决了输入输出不定长的问题,是理解文中有关mask内容的基础
  3. 词向量   必备技能,NLP版的one-hot
  4. attention  需要简单的了解attention的工作原理
  5. high way   参考ResNet

本文的重点在于

  1. self-attention的提出
  2. position-wise encoding 解决了self-attention无法捕捉token(分词后的词语,为了方便理解,后文使用词语来代替token)间前后位置关系的缺点。

Abs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值