神经网络机器翻译技术NMT

最新推荐文章于 2024-03-29 19:50:38 发布

纸上得来终觉浅～

最新推荐文章于 2024-03-29 19:50:38 发布

阅读量4.8k

点赞数 1

分类专栏：图像处理文章标签：图像处理深度学习人工智能 tensorflow

本文链接：https://blog.csdn.net/qq_32172681/article/details/93861389

版权

本文会首先介绍神经网络机器翻译(Neural Machine Translation )技术的原理，再介绍如何使用 TensorFlow NMT 训练一个中英翻译引擎。

一、Encoder -- Decoder模型的原理

Encoder-Decoder 模型是使用神经网络进行机器翻译的基本方法，一般也称作 Seq2Seq 模型。原始的 N VS N RNN结构要求输入序列和输出序列等长，而Encoder-Decoder 模型可以有效地建模输入序列和输出不等长的问题。具体来说，它会先用一个 Encoder 将输入的序列编码为一个上下文向量 c, 再使用 Decoder对c进行解码，将之变为输出序列。对应到机器翻译问题中，输入的句子被 Encoder 编码为向量 c,c 中存储了神经网络对句子的理解，再利用 Decoder 解码 c，以生成翻译之后的句子。

二、注意力机制

在 Encoder-Decoder 结构中， Encoder 把所高的输入序列都编码成一个统一的语义特征 c 再解码，因此， c 中必须包含原始序列中的所有信息，它的长度成了限制模型性能的瓶颈。如在机器翻译问题中，当被翻译的句子较长时，一个 c可能无法存诸如此多的信息，翻译精度会下降。注意力机制( Attention) 通过在每个时间输入不同的 c 来解决这个问题。使用注意力机制后，每一个 c会自动选取与当前所要输出的 y最合适的上下文信息。