NLP进阶之（一）Seq2Seq模型之Chatbot

最新推荐文章于 2024-04-19 09:33:22 发布

Merlin17Crystal33

最新推荐文章于 2024-04-19 09:33:22 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35495233/article/details/86611852

版权

NLP进阶之（一）Seq2Seq模型之Chatbot

1. 编码器—解码器（seq2seq）
2. 注意力机制（Attention）
3. 小结
- - 3.1 参考链接

1. 编码器—解码器（seq2seq）

NLP之前的章节中处理并分析了不定长的输入序列。但在很多应用中，输入和输出都可以是不定长序列。以机器翻译为例，输入可以是一段不定长的问题文本序列，输出可以是一段不定长的回答文本序列，例如

有，现在我在努力学习英文，我想成为一名翻译。嗯，你是大有前途的。追逐你的梦想，永不放弃。

问题输入：“现在”、“我”、“在”、“努力学习”、“英文”、“，”、“我”、“想”、“成为”、“一名”、“翻译”、“。”

回输出：“嗯”、“，”、“你”、“是”、“大有”、“前途”、“的”、“。”、“追逐”、“你”、“的”、“梦想”、“，”、“永不”、“放弃”、“。”

解释

当输入输出都是不定长序列时，我们可以使用编码器—解码器（encoder-decoder）[1] 或者 seq2seq 模型 [2]。这两个模型本质上都用到了两个循环神经网络，分别叫做编码器和解码器。编码器用来分析输入序列，解码器用来生成输出序列。在训练数据集中，我们可以在每个句子后附上特殊符号“<eos>”（end of sequence）表示序列的终止。编码器每个时间步的输入依次为问题句子中的单词、标点和特殊符号“<eos>”。解码器在各个时间步中使用输入句子的编码信息和上个时间步的输出以及隐藏状态作为输入。
我们希望解码器在各个时间步能正确依次输出翻译后的问题单词、标点和特殊符号“<eos>”。
需要注意的是，解码器在最初时间步的输入用到了一个表示序列开始的特殊符号“<bos>”（beginning of sequence）。

接下来我们分别介绍编码器和解码器的定义。

1.1 编码器

编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 $\boldsymbol{c}$ ，并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。

让我们考虑批量大小为 1 的时序数据样本。假设输入序列是 $x_1,\ldots,x_T$ ，例如 $x_i$ 是输入句子中的第 $i$ 个词。在时间步 $t$ ，循环神经网络将输入 $x_t$ 的特征向量 $\boldsymbol{x}_t$ 和上个时间步的隐藏状态 $\boldsymbol{h}_{t-1}$ 变换为当前时间步的隐藏状态 $\boldsymbol{h}_t$ 。我们可以用函数 $f$ 表达循环神经网络隐藏层的变换：
$\boldsymbol{h}_t = f(\boldsymbol{x}_t, \boldsymbol{h}_{t-1}).$

接下来编码器通过自定义函数 $q$ 将各个时间步的隐藏状态变换为背景变量

$\boldsymbol{c} = q(\boldsymbol{h}_1, \ldots, \boldsymbol{h}_T).$

例如，当选择 $q(\boldsymbol{h}_1, \ldots, \boldsymbol{h}_T) = \boldsymbol{h}_T$ 时，背景变量是输入序列最终时间步的隐藏状态 $\boldsymbol{h}_T$ 。以上描述的编码器是一个单向的循环神经网络，每个时间步的隐藏状态只取决于该时间步及之前的输入子序列。我们也可以使用双向循环神经网络构造编码器。这种情况下，编码器每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列（包括当前时间步的输入），并编码了整个序列的信息。

1.2 解码器

刚刚已经介绍，编码器输出的背景变量 $\boldsymbol{c}$ 编码了整个输入序列 $x_1, \ldots, x_T$ 的信息。给定训练样本中的输出序列 $y_1, y_2, \ldots, y_{T'}$ ，对每个时间步 $t^{'}$ （符号与输入序列或编码器的时间步 $t$ 有区别），解码器输出 $y_{t'}$ 的条件概率将基于之前的输出序列 $y_1,\ldots,y_{t'-1}$ 和背景变量 $\boldsymbol{c}$ ，即 $\mathbb{P}(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c})$ 。

为此，我们可以使用另一个循环神经网络作为解码器。在输出序列的时间步 $t^\prime$ ，解码器将上一时间步的输出 $y_{t^\prime-1}$ 以及背景变量 $\boldsymbol{c}$ 作为输入，并将它们与上一时间步的隐藏状态 $\boldsymbol{s}_{t^\prime-1}$ 变换为当前时间步的隐藏状态 $\boldsymbol{s}_{t^\prime}$ 。因此，我们可以用函数 $g$ 表达解码器隐藏层的变换：

$\boldsymbol{s}_{t^\prime} = g(y_{t^\prime-1}, \boldsymbol{c}, \boldsymbol{s}_{t^\prime-1}).$

最低0.47元/天解锁文章

Merlin17Crystal33

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP进阶之（一）Seq2Seq模型之Chatbot

NLP进阶之（一）Seq2Seq模型之Chatbot1. 编码器—解码器（seq2seq）解释编码器合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图...
复制链接

扫一扫

专栏目录