baseline-7:使用神经网络来做序列到序列的学习

最新推荐文章于 2023-03-24 17:12:12 发布

sirlb2013

最新推荐文章于 2023-03-24 17:12:12 发布

阅读量319

点赞数

分类专栏： nlp_baseline

本文链接：https://blog.csdn.net/sirlb2013/article/details/107609944

版权

nlp_baseline 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

0.前言

标题：Sequence to Sequence Learning with Neural Networks
使用神经网络来做序列到序列的学习
作者：Ilys Sutskever, Oriol vinyals, Quoc V. Le
单位：Google
出处：NIPS2014

* 总结

动机
- 神经网络无法处理序列到序列的问题，特别是变长的序列。
- 使用多层LSTM可以学习更多的信息。
创新点+主要工作
- 提出了一种新的神经机器翻译模型-Deep NMT模型。
- 提出了一些tricks——多层LSTM和倒序输入等。
- Encoder 和Decoder使用不同的LSTM
- 在WMT14英语到法语翻译上得到非常好的结果。
关键点
- 验证了Seq2Seq模型对于序列到序列任务的有效性
- 从实验的角度发现了提高效果的tricks
- 提出Deep NMT模型
启发点
- Seq2Seq模型就是使用一个LSTM提取输入序列的特征，每个时间步输入一个词，从而生成固定维度的句子向量表示，然后Deocder使用另外一个LSTM来从这个向量中生成输入序列。
  The idea is to use one LSTM to read the input sequence, one timestep at a time, to obtain large fixed dimensional vector representation, and then to use another LSTM to extract the output sequence
  from that vector(Introduction P3)
- 这里的Encoder和Decoder的思想非常重要，这里是用LSTM来作为Encoder和Decoder，后面还出现了CNN，RNN作为Encoder和Decoder的文章。
- 我们的实验也支持这个结论，我们的模型生成的句子表示能够明确词序信息，并且能够识别出来同一种含义的主动和被动语态。
  A qualitative evaluation supports this claim, showing that our model is aware of word order and is fairly invariant to the active and passive voice.(Introduction P8)

1.论文导读

1.1神经机器翻译（NMT）

机器翻译：使用机器自动将某种语言的一句话翻译成另外一种语言。
意义：可以解决人类之间因为不同语言交流不畅的问题。

1.2评测标准BLEU

2.论文精读

2.1 论文框架

2.2 本文模型（deep NMT）

2.3 主要tricks

2.4 补充知识

3.实验

3.1 数据集

3.2实验结果

3.3代码

sirlb2013

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
baseline-7:使用神经网络来做序列到序列的学习

目录前言1.论文导读2.论文精读3.实验前言1.论文导读标题：Sequence to Sequence Learning with Neural Networks使用神经网络来做序列到序列的学习作者：Ilys Sutskever, Oriol vinyals, Quoc V. Le单位：Google出处：NIPS20142.论文精读3.实验...
复制链接

扫一扫