【论文阅读】Attention Is All You Need

最新推荐文章于 2024-09-26 16:06:34 发布

Hackerzer

最新推荐文章于 2024-09-26 16:06:34 发布

阅读量6.7k

点赞数 1

分类专栏： nlp 相关论文深度学习

本文链接：https://blog.csdn.net/hackerzer/article/details/73207835

版权

论文《Attention Is All You Need》提出Transformer模型，摒弃RNN与CNN，仅使用Attention机制，在WMT任务上取得优秀效果。该模型解决了长距离依赖问题，适用于序列建模。

摘要由CSDN通过智能技术生成

昨天刚学习了在 RNN encode-decode编解码框架上的进行Attention的工作，今天就看到了这篇，只有Attention是你需要的，RNN 序列串的建模根本不是重要的。好，开始读论文。
Ashish Vaswani等 Google Brain，作者单位中还有多伦多大学的，六位作者都是一作？哈。

摘要：

当前主流的序列建模是在复杂的RNN与CNN的框架之上的，（值得注意的是这篇文章把CNN也加在序列建模之上了，CNN序列化的方法也是最近才出的，最近也正在阅读：http://blog.csdn.net/hackerzer/article/details/72917286）。本文提出了可以完全不用采用RNN与CNN的模型架构，只需要保留Attention的机制，就可以在一些task上达到很好的效果。文章中试验的task有WMT 2014 English-to-French translation task，在这个任务上提升了2个BLUE 值，以及WMT 2014 English-to-French translation task，在这个任务上在8GPUs上训练3.5day就达到了当前单模型最优的效果。