综述
1Introduce a new task: Machine Translation
介绍机器翻译任务。
2.Introduce a new neural architecture: sequence-to-sequence
介绍神经网络结构:序列到序列。该结构的一个主要用例就是机器翻译。
3.Introduce a new neural technique: attention
介绍神经网络技术:注意力机制。该技术主要用于改进序列到序列网络的效果。
第一部分 机器翻译
机器翻译(MT)是将句子x从一种语言(源语言)转换为另一种语言(目标语言)的句子y的任务。
演变过程
1950年:主要通过规则,把俄文单词和英文单词进行匹配。
1990年-2010年:基于统计的机器翻译(SMT)。思想很简单,在给定句子x的前提下,使目标翻译P(y|x)最大时y的值。根据公式转换之后便变成了两部分模型,使P(x|y)最大的翻译模型和使P(y)最大语言模型。
其中a是对齐方式,即源句子x和目标句子y之间的词级对应。因为我们无法直接获取到x和y的对应数据,所以需要一个词对齐的任务,即引入a。
Alignment,对齐是翻译的句子对中特定单词之间的对应关系。
对齐其实也是非常复杂的任务,可能对齐是多对一,可能是多对多,甚至有些东西难以有对应内容。
所以,传统任务训练使P(x,a|y)最大化的任务包含了多个概率的训练,包括:
Probability of particular words aligning (also depends on position in sent) 特定单词对齐的概率(还取决于发送的位置)
Probability of particular words having particular fertility (number of corresponding words) 具有特定奇怪词的特定单词的概率(对应单词的数量)
etc. 等等
并且对齐单词a在数据中其实一般都不会被标识出来。
列举所有的y是不现实的,