简析Transformer（attention is all you need）

最新推荐文章于 2023-01-27 09:00:01 发布

困=_=

最新推荐文章于 2023-01-27 09:00:01 发布

阅读量371

点赞数

分类专栏：论文总结 Transformer Attention 文章标签： nlp 人工智能

本文链接：https://blog.csdn.net/weixin_42811507/article/details/109276270

版权

Transformer：
1. BERT，GPT等模型的基础，推动NLP进入BERT时代的起因。
2. 因其推出的self-attention被广泛应用于NLP和CV等领域。
3. 直接导致了NLP模型步入CV模型的发展趋势，模型大到普通玩家靠边站的地步（这也是最近小样本学习在学术界逐渐火热的原因之一）。
不管未来的发展趋势如何，Transformer作为现今NLP发展根基之一，是我们必须掌握和理解的模型，对于CV也一样，毕竟self-attention如今也广泛应用于CV领域。

在正式介绍Transformer之前，为保证可读性，读者需要提前了解下述技术和模型：

encoder-decoder模型 encoder-decoder为最常用的机器翻译模型架构
seq2seq 　　解决了输入输出不定长的问题，是理解文中有关mask内容的基础
词向量　　　必备技能，NLP版的one-hot
attention 　需要简单的了解attention的工作原理
high way 　　参考ResNet

本文的重点在于

self-attention的提出
position-wise encoding 解决了self-attention无法捕捉token(分词后的词语，为了方便理解，后文使用词语来代替token)间前后位置关系的缺点。

Abs

最低0.47元/天解锁文章

困=_=

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简析Transformer（attention is all you need）

简析Transformer（attention is all you need）Transformer：1. BERT，GPT等模型的基础，推动NLP进入BERT时代的起因。2. 因其推出的self-attention被广泛应用于NLP和CV等领域。3. 直接导致了NLP模型步入CV模型的发展趋势，模型大到普通玩家靠边站的地步（这也是最近小样本学习在学术界逐渐火热的原因之一）。不管未来的发展趋势如何，Transformer作为现今NLP发展根基之一，是我们必须掌握和理解的模型，对于CV也一样，毕竟
复制链接

扫一扫