Massive Exploration of Neural Machine Translation Architectures论文解读

基本信息

作者D Britzdoi
发表时间2017期刊EMNLP
网址https://arxiv.org/abs/1703.03906v1

研究背景

1. What’s known 既往研究已证实
神经机器翻译NMT是一种自动翻译的端到端方法(Neural Machine Translation by Jointly Learning to Align and Translate论文里的,刚读过),训练代价高昂,所以我们需要超参数提高NMT的性能。

2. What’s new 创新点
进行了大规模的超参数分析,对比了不同超参数(如嵌入维数、RNN单元类型、编码器和解码器的深度、注意力机制等)对NMT性能的影响。

3. What’s are the implications 意义
通过实验得出的最佳超参数组合和架构选择,为构建高性能的NMT系统提供了有力支持。

研究方法

1. 嵌入维度
期望更大的嵌入可以获得更好的BLEU分数,更低的困惑。但大嵌入和小嵌入对梯度的更新没有太大的差异。
在这里插入图片描述
2. RNN变体
门控单元(如GRU和LSTM)的动机是消失梯度问题。使用普通RNN单元,深度网络无法通过多个层和时间步有效地传播信息和梯度。在实验中,LSTM始终优于GRU。
在这里插入图片描述
3. 编码器与解码器深度
解码器方面,较深的模型比较浅的模型表现出小幅度的优势。
并且我们发现如果没有残差连接,我们不可能训练具有8层或更多层的解码器。
深度解码器实验中,密集残差连接始终优于常规残差连接,并且在步长计数方面收敛得更快。
在这里插入图片描述
4. 单向与双向编码器
双向编码器通常优于单向编码器,但差距不大。反向源编码器的性能始终优于非反向源编码器,但不优于较浅的双向编码器。
在这里插入图片描述
5. 注意力机制
加性注意机制略优于乘性注意机制
在这里插入图片描述
6. beam搜索策略
良好的beam搜索可以增加BLEU,有最佳点,不是越大越好。
在这里插入图片描述

结果与讨论

  1. 给出了一个有效的超参数组合,为研究人员和开发者提供了一个刷BLEU分数的基线。
  2. 随机初始化和细微的超参数变化对BLEU分数有一定影响,这有助于研究人员从随机噪声中找出具有统计学意义的结果。

个人思考与启发

给了我们如何微调模型的启发,在微调时,我们可以嵌入维度、编码器用单向或者双向、是否加注意力机制等来改变模型性能。

重要图

文献中重要的图记录下来
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值