昨天刚学习了在 RNN encode-decode编解码框架上的进行Attention的工作,今天就看到了这篇,只有Attention是你需要的,RNN 序列串的建模根本不是重要的。好,开始读论文。
Ashish Vaswani等 Google Brain,作者单位中还有多伦多大学的,六位作者都是一作?哈。
摘要:
当前主流的序列建模是在复杂的RNN与CNN的框架之上的,(值得注意的是这篇文章把CNN也加在序列建模之上了,CNN序列化的方法也是最近才出的,最近也正在阅读:http://blog.csdn.net/hackerzer/article/details/72917286)。本文提出了可以完全不用采用RNN与CNN的模型架构,只需要保留Attention的机制,就可以在一些task上达到很好的效果。文章中试验的task有WMT 2014 English-to-French translation task, 在这个任务上提升了2个BLUE 值,以及WMT 2014 English-to-French translation task,在这个任务上在8GPUs上训练3.5day就达到了当前单模型最优的效果。
相关工作
RNN或lstm、GRU处理序列问题由于需要串行地计算各个位置隐状态的值,因而存在不能并行化的问题,有一些研究工作如[1][2]在计算效率上取得了显著的提升,序列计算的局限仍然存在。(TODO比较好奇这些工作),文章所做的探