【论文笔记】Sequence to Sequence Learning with Neural Networks

本文提出了使用LSTM的端到端序列学习方法,解决了序列映射到序列的问题。通过一个LSTM读取输入序列得到固定维度向量,再用另一个LSTM从向量解码出目标序列,尤其适合处理长句子。实验表明,深层LSTM模型在长句子翻译任务中表现优秀,且能够学习到输入序列的语义表示。
摘要由CSDN通过智能技术生成

Sequence to Sequence Learning with Neural Networks

 

        Abstract:DNN可以在有大量标记训练集下表现很好,但是无法处理用于序列映射到序列。在本文中,我们提出了一种端到端的序列训练方法,可以对序列结构做最小的假设。我们的方法使用了多层LSTM将输入序列映射成一个固定维度的向量,然后用另一个深度LSTM从向量中解码出目标序列。

1  Introduction

1)DNN功能强大:DNN在语音识别和视觉目标检测等困难领域都有很好的表现。DNN功能强大,可以执行任意数量的并行计算。只要有足够的标记训练集来指定网络参数,就可以用监督反向传播来训练大型DNN。因此,如果存在一个参数设置能使大型DNN网络能获得良好结果,那么监督反向传播将找到这些参数并解决这个问题

2)DNN'只能用于输入和输出可以用固定维度进行编码的问题:这是一个重要的限制,因为很多重要问题最好用一些未知长度的序列表示。比如语音识别和机器翻译是顺序问题。问答系统也类似。

3)本文使用一种LSTM的结构来解决一般的seq到seq的问题:一个LSTM用来读取输入序列,一次一个时间步,用来获得大的固定维度向量表示;另一个LSTM从向量中提取输出序列。第二个LSTM实质上是循环神经网络模型,只是它的输入序列是有条件的。

4)为解决一般的seq到seq的问题,已有很多相关的尝试:略

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值