基本信息
作者 | D Britz | doi | |
---|---|---|---|
发表时间 | 2017 | 期刊 | EMNLP |
网址 | https://arxiv.org/abs/1703.03906v1 |
研究背景
1. What’s known 既往研究已证实
神经机器翻译NMT是一种自动翻译的端到端方法(Neural Machine Translation by Jointly Learning to Align and Translate论文里的,刚读过),训练代价高昂,所以我们需要超参数提高NMT的性能。
2. What’s new 创新点
进行了大规模的超参数分析,对比了不同超参数(如嵌入维数、RNN单元类型、编码器和解码器的深度、注意力机制等)对NMT性能的影响。
3. What’s are the implications 意义
通过实验得出的最佳超参数组合和架构选择,为构建高性能的NMT系统提供了有力支持。
研究方法
1. 嵌入维度
期望更大的嵌入可以获得更好的BLEU分数,更低的困惑。但大嵌入和小嵌入对梯度的更新没有太大的差异。
2. RNN变体
门控单元(如GRU和LSTM)的动机是消失梯度问题。使用普通RNN单元,深度网络无法通过多个层和时间步有效地传播信息和梯度。在实验中,LSTM始终优于GRU。
3. 编码器与解码器深度
解码器方面,较深的模型比较浅的模型表现出小幅度的优势。
并且我们发现如果没有残差连接,我们不可能训练具有8层或更多层的解码器。
深度解码器实验中,密集残差连接始终优于常规残差连接,并且在步长计数方面收敛得更快。
4. 单向与双向编码器
双向编码器通常优于单向编码器,但差距不大。反向源编码器的性能始终优于非反向源编码器,但不优于较浅的双向编码器。
5. 注意力机制
加性注意机制略优于乘性注意机制
6. beam搜索策略
良好的beam搜索可以增加BLEU,有最佳点,不是越大越好。
结果与讨论
- 给出了一个有效的超参数组合,为研究人员和开发者提供了一个刷BLEU分数的基线。
- 随机初始化和细微的超参数变化对BLEU分数有一定影响,这有助于研究人员从随机噪声中找出具有统计学意义的结果。
个人思考与启发
给了我们如何微调模型的启发,在微调时,我们可以嵌入维度、编码器用单向或者双向、是否加注意力机制等来改变模型性能。
重要图
文献中重要的图记录下来