【论文阅读】Attention Is All You Need

最新推荐文章于 2024-03-19 00:21:14 发布

代码拖拉鸡

最新推荐文章于 2024-03-19 00:21:14 发布

阅读量240

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38290604/article/details/106023076

版权

本文提出了一个全新的模型架构Transformer，在Transformer模型提出前，机器翻译主要使用的模型是Seq2Seq和加入attention机制的Seq2Seq。Transformer与这些模型的基本架构类似，都由Encoder和Decoder组成，但不同之处在于Transformer模型中没有使用RNN/LSTM或CNN，仅仅使用了attention机制，就完成了输入到输出之间的并行计算。Transformer的优点可以总结为以下几点：

Seq2Seq模型的Encoder将输入序列编码为一个固定长度的向量表示，输入向量的所有语义信息都包含在了一个向量中，当输入向量长度很长的时候，这样做会损失输入向量的很多语义信息。Transformer模型很好的解决了这一问题。
传统的Seq2Seq模型以及加入attention机制的Seq2Seq模型，因为模型由RNN/LSTM组成，所有无法实现输入输出的平行化(在Encoder端模型需要依次读取到所有的输入后才可以得到输出)。Transformer模型同样很好的解决了这一问题。

1.模型整体架构

在这里插入图片描述
本文提出了Transformer模型，模型架构图如上图所示。从图中可以看出，Transformer也是由一个Encoder和一个Decoder组成。inputs输入经过编码后得到input embedding，input embedding加入位置信息编码positional encoding一起输入到Encoder。经过Encoder的编码处理后，将Encoder得到的输出输入到Decoder中。Decoder同样接收Decoder的输入，输入

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。