论文阅读笔记(一)《Sequence to Sequence Learning with Neural Networks》

论文下载链接:https://arxiv.org/pdf/1409.3215.pdf

创新点:

针对神经网络(DNN)不能用于将序列映射到序列的问题,提出一种通用的端到端序列学习方法。

论文内容:

DNN:语音识别、视觉对象识别
优势:可以执行任意并行计算的适当数目的步骤。
局限性:只能应用于输入和目标能够合理编码固定维向量的问题。

长短期记忆神经网络(LSTM):将可变长度的输入句子映射成一个固定维度的向量。

传统的序列-序列模型:
当输入和输出对齐时,输入序列通过一个循环神经网络(RNN)被压缩成一个固定向量,再经过一个循环神经网络,将这个固定向量再转化成序列输出。
本文的模型与传统的模型有三点不同:
1、输入序列通过一个LSTM压缩成一个fixed-dimensional向量,然后再经过一个LSTM转化成序列进行输出。(可以在忽略不计的计算成本下增加数量模型参数,并使同时在多语言对上训练LSTM变得自然)
2、本文发现深层的长短期记忆神经网络效果好过浅层的LSTM,所以本文选择了4层的LSTM。
3、颠倒输入句子的单词顺序会使该模型效果更好。
数据验证:
在WMT’ 14数据集的英语到法语翻译任务中,LSTM生成的翻译在整个测试集中获得了34.8分的BLEU分数,而LSTM的BLEU分数在词汇外的单词上被扣分。此外,LSTM在长句子上也没有困难。相比之下,基于短语的SMT系统在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时,其BLEU得分增加到36.5,接近之前该任务的最佳结果。
LSTM还学习了对词序敏感、对主动语态和被动语态相对不变的合理短语和句子表征。针对源句颠倒、目标句没有颠倒的情况,LSTM的效果更好。

数据验证:

总结:

作为一个简单、直接、相对未优化的模型,LSTM明显优于SMT系统。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值