【论文阅读】Attention Is All You Need

论文《Attention Is All You Need》提出Transformer模型,摒弃RNN与CNN,仅使用Attention机制,在WMT任务上取得优秀效果。该模型解决了长距离依赖问题,适用于序列建模。
摘要由CSDN通过智能技术生成

昨天刚学习了在 RNN encode-decode编解码框架上的进行Attention的工作,今天就看到了这篇,只有Attention是你需要的,RNN 序列串的建模根本不是重要的。好,开始读论文。
Ashish Vaswani等 Google Brain,作者单位中还有多伦多大学的,六位作者都是一作?哈。

摘要:

当前主流的序列建模是在复杂的RNN与CNN的框架之上的,(值得注意的是这篇文章把CNN也加在序列建模之上了,CNN序列化的方法也是最近才出的,最近也正在阅读:http://blog.csdn.net/hackerzer/article/details/72917286)。本文提出了可以完全不用采用RNN与CNN的模型架构,只需要保留Attention的机制,就可以在一些task上达到很好的效果。文章中试验的task有WMT 2014 English-to-French translation task, 在这个任务上提升了2个BLUE 值,以及WMT 2014 English-to-French translation task,在这个任务上在8GPUs上训练3.5day就达到了当前单模型最优的效果。

相关工作

RNN或lstm、GRU处理序列问题由于需要串行地计算各个位置隐状态的值,因而存在不能并行化的问题,有一些研究工作如[1][2]在计算效率上取得了显著的提升,序列计算的局限仍然存在。(TODO比较好奇这些工作),文章所做的探

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值