使用 Seq2Seq 实现中英文翻译

最新推荐文章于 2024-04-26 13:54:35 发布

VIP文章 chuyunchi8137

最新推荐文章于 2024-04-26 13:54:35 发布

阅读量1.9k

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/4109778/blog/3083162

版权

1. 介绍

1.1 Deep NLP

自然语言处理（Natural Language Processing，NLP）是计算机科学、人工智能和语言学领域交叉的分支学科，主要让计算机处理或理解自然语言，如机器翻译，问答系统等。但是因其在表示、学习、使用语言的复杂性，通常认为 NLP 是困难的。近几年，随着深度学习（Deep Learning, DL）兴起，人们不断尝试将 DL 应用在 NLP 上，被称为 Deep NLP，并取得了很多突破。其中就有 Seq2Seq 模型。

1.2 来由

Seq2Seq Model是序列到序列（ Sequence to Sequence ）模型的简称，也被称为一种编码器-解码器（Encoder-Decoder）模型，分别基于2014发布的两篇论文：

Sequence to Sequence Learning with Neural Networks by Sutskever et al.,
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation by Cho et al.,

作者 Sutskever 分析了 Deep Neural Networks (DNNs) 因限制输入和输出序列的长度，无法处理未知长度和不定长的序列；并且很多重要的问题都使用未知长度的序列表示的。从而论证在处理未知长度的序列问题上有必要提出新解决方式。于是，创新性的提出了 Seq2Seq 模型。下面让我们一起看看这个模型到底是什么。

2. Seq2Seq Model 之不断探索

为什么说是创新性提出呢? 因为作者 Sutskever 经过了三次建模论证，最终才确定下来 Seq2Seq 模型。而且模型的设计非常巧妙。让我们先回顾一下作者的探索经历。语言模型（Language Model, LM）是使用条件概率通过给定的词去计算下一个词。这是 Seq2Seq 模型的预测基础。由于序列之间是有上下文联系的，类似句子的承上启下作用，加上语言模型的特点（条件概率），作者首先选用了 RNN-LM（Recurrent Neural Network Language Model, 循环神经网络语言模型）。 上图，是一个简单的 RNN 单元。RNN 循环往复地把前一步的计算结果作为条件，放进当前的输入中。 适合在任意长度的序列中对上下文依赖性进行建模。但是有个问题，那就是我们需要提前把输入和输出序列对齐，而且目前尚不清楚如何将 RNN 应用在不同长度有复杂非单一关系的序列中。为了解决对齐问题，作者提出了一个理论上可行的办法：使用两个 RNN。一个 RNN 把输入映射为一个固定长度的向量，另一个 RNN 从这个向量中预测输出序列。 double RNN.png 为什么说是理论可行的呢？作者 Sutskever 的博士论文 TRAINING RECURRENT NEURAL NETWORKS (训练循环神经网络）提出训练 RNN 是很困难的。因为由于 RNN 自身的网络结构，其当前时刻的输出需要考虑前面所有时刻的输入，那么在使用反向传播训练时，一旦输入的序列很长，就极易出现梯度消失（Gradients Vanish）问题。为了解决 RNN 难训练问题，作者使用 LSTM（Long Short-Term Memory，长短期记忆）网络。 上图，是一个 LSTM 单元内部结构。LSTM 提出就是为了解决 RNN 梯度消失问题，其创新性的加入了遗忘门，让 LSTM 可以选择遗忘前面输入无关序列，不用考虑全部输入序列。

最低0.47元/天解锁文章

chuyunchi8137

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
使用 Seq2Seq 实现中英文翻译

1. 介绍1.1 Deep NLP自然语言处理（Natural Language Processing，NLP）是计算机科学、人工智能和语言学领域交叉的分支学科，主要让计算机处理或理解自然语言，如机器翻译，问答系统等。但是因其在表示、学习、使用语言的复杂性，通常认为 NLP 是困难的。近...
复制链接

扫一扫