【论文解读】Attention is All you need

最新推荐文章于 2024-06-04 12:44:10 发布

shun-ripking

最新推荐文章于 2024-06-04 12:44:10 发布

阅读量589

点赞数

分类专栏：自然语言处理文章标签： transformers attention nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengshunhang/article/details/110350041

版权

地址：1706.03762v5.pdf (arxiv.org)abstrat作者在abstract中先是简述了一种传统的翻译模型：encoder and decoder + Attention注意力机制(回顾：Simple to seq2seq And attention | Ripshun Blog)，然后引出了他们新的简单网络模型：Transformer，在实验中Transfromer有了很高的表现：28.4BLEU 在WMT2014 English to Germen4.

摘要由CSDN通过智能技术生成

地址：

1706.03762v5.pdf (arxiv.org)

abstrat

作者在abstract中先是简述了一种传统的翻译模型：encoder and decoder + Attention注意力机制(回顾：Simple to seq2seq And attention | Ripshun Blog)，然后引出了他们新的简单网络模型：Transformer，在实验中Transfromer有了很高的表现：

28.4BLEU 在WMT2014 English to Germen
41.8BLEU 在WMT2014 English to Freach 运行3.5天在8台gpu上

Introduction

在Introduction中作者首先提出了Lstm和GRU（一种门结构的RNN模型）

【Simple to GRU | Ripshun Blog】
【

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文解读】Attention is All you need

地址：1706.03762v5.pdf (arxiv.org)abstrat作者在abstract中先是简述了一种传统的翻译模型：encoder and decoder + Attention注意力机制(回顾：Simple to seq2seq And attention | Ripshun Blog)，然后引出了他们新的简单网络模型：Transformer，在实验中Transfromer有了很高的表现：28.4BLEU 在WMT2014 English to Germen4.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。