随着深度学习的发展,NMT(Neural machine translation)已经逐渐取代了SMT(statistic MT)。其最大的有点就是系统的整体和简单,少去了统计机器翻译中的分词,对齐。抽短语等繁琐的步骤。
而NMT的大致流程和思想可以去参考下面的链接,讲的很详细。
https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-with-gpus/
说到NMT不得不提到RNN,GRU,LSTM这些网络结构。这些东西在这里就不做介绍。另外一个已经被大家公认的很有价值的发现就是Attention机制。首先通俗的介绍一下它的思想。
例如我们在翻译(我 昨天 有事,所以 他 替我 去 北京 了)的时候翻译“去”这个词的时候,人们的注意力是集中于几个词上面,而不是整句话上面的。这里 这里(昨天,他)都对去的翻译起很大的影响,Attention的思想就是将所有词分配一个权重来表示对现在的翻译的上下文的重要性。
1,首先介绍Attention机制解决的问题。
上图说明一个问题,当用传统encoder-decoder框架的时候,encoder的表达能力有限,任意长度的句子都会把encoder压缩到一个有限制维度的向量中,