Sequence to Sequence Learning with Neural Networks

这是由谷歌的三位大神用seq2seq模型实现的基于神经网络的机器翻译(英法互译),基本的方法还是encoder-decoder,作为seq2seq的经典必读论文,本文与其他工作相比主要有创新点有:

  1. 利用了多层的LSTM(本文中是4层)。实验表明使用LSTM对长句子的翻译来说效果很好,主要是因为LSTM本身具有长期依赖的优势。
  2. 与attention不一样,它又回归到原始模型,在编码端将输入句子编码成一个固定的维度的向量。作者说这样可以迫使模型学习捕捉句子的意思,尽管句子的表达方式不同。
  3. 最重要的一点是,实验发现将句子逆序输入可以明显改善LSTM模型的表现。 一个猜测的解释(因为作者也不知道具体的原因)是这样做可以减小“minimal time lag”(最短时间间隔),举例,输入是“ABC”,对应输出是“XYZ”,“A”与对应的“X”的间隔是3,“B”和“C”与其对应的间隔也是3,所以最短时间间隔是3。如果将输入逆序,以“CAB”作为输入,“A”与“X”的间隔是1,最短时间间隔就减小为1。于是作者猜测将输入逆序虽然没有减少源句子(输入)与目标句子(输出)的平均间隔,但是源句子与目标句子是前几个词的距离减少了,于是句子的“最短时间间隔”减少了。通过后向传播可以更快地在源句子和目标句子之间“建立通信”,整体的性能也有了显着的改善。

实验

实验设置

  • 4层LSTM,每层1000个单元
  • 词向量维度是1000维
  • 输入词典大小是160,000,输出词典大小是80,000
  • LSTM的初始参数服从
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值