CS224d-Day 9:
GRUs and LSTMs – for machine translation
视频链接
课件链接
本文结构:
- 机器翻译系统整体的认识
- 什么是 parallel corpora
- 三个模块
- 各模块有什么难点
- RNN 模型
- 最简单的 RNN 模型
- 扩展模型
- GRU:
- LSTM
下面是video的笔记:
1.机器翻译
机器翻译是NLP问题中比较难的其中之一,为了解决这个问题,有一些很好玩的模型:
Gated Recurrent Units by Cho et al. (2014)
http://arxiv.org/pdf/1412.3555v1.pdf
http://arxiv.org/pdf/1502.02367v3.pdfLong-Short-Term-Memories by Hochreiter and Schmidhuber (1997)
http://web.eecs.utk.edu/~itamar/courses/ECE-692/Bobby_paper1.pdf
LSTM 是很早以前的模型,GRU 是比较新的。
过去的方式很传统,现在的 Deep Learning 是基于统计的,它们以 parallel corpora 为基础。
什么是 parallel corpora?
是个很大的 corpora,句子和段落都是对齐的.
比如 European Parliament,欧洲议会 的笔记,它们被欧盟的所有语言所记录,所以你会看到一句英语,法语,意大利语,德语等等。
通常我们只需要一对语言,也就是一句翻译成一句。
此外我们也有翻译整段文字的场景,一样的,这个时候就是段落的对齐。
这是一个非常复杂的系统,先做一个整体的认识,然后再看具体的模块:
例如输入的语言是 French,目标语言是 English,我们希望翻译的概率达到最大。
也就是,如果给了f,它被翻译成e^的概率最大,那e^就是翻译的结果。
这里有三个模块:
第一个是 Translation Model,是通