Seq2Seq系列（二）:Sequence to Sequence

最新推荐文章于 2023-02-21 19:42:47 发布

myofficials

最新推荐文章于 2023-02-21 19:42:47 发布

阅读量953

点赞数

分类专栏：对话系统文章标签： nlp deep-learning

本文链接：https://blog.csdn.net/myofficials/article/details/79057283

版权

对话系统专栏收录该内容

6 篇文章 0 订阅

订阅专栏

论文链接Sequence to Sequence Learning with Neural Networks

这是介绍Seq2Seq系列的第二篇文章，主要介绍Seq2Seq的基本模型。与第一篇论文Encoder-Decoder之间具有很强的连续性，内容较少。在这篇论文中，作者将Seq2Seq模型用于英译法的翻译任务中。
模型
Seq2Seq的基础是Encoder和Decoder模型，同样地，Seq2Seq也有Encoder和Decoder模块。
同样地，作者先贴出了RNN的计算公式：

i n p u t s : (x 1, . . ., x T)

$inputs:(x_{1},...,x_{T})$

o u t p u t s : (y 1, . . ., y T)

$outputs:(y_{1},...,y_{T})$

h i d d e n s t a t e s : h t = s i g m (W h x x t + W h h h t - 1)

$hidden states:h_{t}=sigm(W^{hx}x_{t}+W^{hh}h_{t-1})$

y t = W y h h t

$y_{t}=W^{yh}h_{t}$
实际上，在作者的模型中使用的是LSTM，因为LSTM在处理长序列的时候没有普通的RNN中存在的梯度消失和梯度爆炸的问题。更加适合句子翻译中可能遇到的长句子。
模型图如下：
这里写图片描述

图中的LSTM单元应该分成两块，以EOS为输入，W为输出的LSTM单元左侧的LSTM单元是Encoder部分按时序展开的，其右侧的单元（包括它本身）是Decoder部分按时间顺序展开的。在实现上，Encoder和Decoder可以是同一个RNN，但是通常情况下，Encoder和Decoder是不同的RNN（它们的功能不同）。
{A,B,C}是一个倒置的英文句子（原句子为C,B,A），因为论文中说输入的句子倒置的话要比不倒置的效果要好，但是作者也不知道为什么会这样，只是提出了一些观点。
当原文按单词依次逐个输入Encoder中后，最后输入对应的隐层状态（单词C对应的隐层状态）会被认为编码了整个原文，而作为Decoder的初始化隐层状态。
字符

<EOS> <script type="math/tex" id="MathJax-Element-26"> </script>（end of sentence）类似于

<UNK> <script type="math/tex" id="MathJax-Element-27"> </script>(unknown),是加入词表（vocabulary）中的特殊字符。意味着句子的结束，在Decoder端的输出，若取值概率最大的是

<EOS> <script type="math/tex" id="MathJax-Element-28"> </script>着意味着Decoder结束（译文结束）。同时，它还有一个功能就是Decoder的初始化输入。在Decoder部分，第一个输出是由初始化隐层状态和初始化输入决定的。
Decoder部分使用的是常规的LSTM（或者是RNN）：
除了初始化时刻外，每一时刻的输出仅有本时刻的输入（即上一时刻的输出），以及当前的隐层状态决定。

与Encoder-Decoder模型相区别的是，Seq2Seq的Encoder编码的向量只是作为Decoder的初始化隐层状态，而在Encoder-Decoder模型中，Encoder编码的向量会作为Decoder每一时刻的额外的输入。
本文完

myofficials

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Seq2Seq系列（二）:Sequence to Sequence

论文链接Sequence to Sequence Learning with Neural Networks 这是介绍Seq2Seq系列的第二篇文章，主要介绍Seq2Seq的基本模型。与第一篇论文Encoder-Decoder之间具有很强的连续性，内容较少。在这篇论文中，作者将Seq2Seq模型用于英译法的翻译任务中。模型 Seq2Seq的基础是Encoder和Decoder模型，同样地
复制链接

扫一扫