构建聊天机器人：检索、seq2seq、RL、SeqGAN

最新推荐文章于 2024-04-28 09:21:09 发布

Young_Gy

最新推荐文章于 2024-04-28 09:21:09 发布

阅读量4.4k

点赞数 2

文章标签： chatbot 聊天机器人 seq2seq seqgan 强化学习

本文链接：https://blog.csdn.net/Young_Gy/article/details/76474939

版权

本文将简要介绍聊天机器人的四种构建方法：检索、seq2seq、Reinforcement Learning、seqGAN。

这里写图片描述

聊天机器人的现状

聊天机器人从应用领域分为：

专业型
通用型

从技术上分为：

检索型
生成型

目前聊天机器人在专业领域利用检索的效果较好，正朝着通用领域生成型发展。

检索

检索方法的数据库是很多对话的pair，其原理是将query编码成vector，然后在数据库中找最接近的query，然后将最接近的query的回答输出。注意点如下：

query的编码方式LSI：使用词袋模型或tf-idf对数据库中的query集进行编码得到矩阵 $A$ ，行代表word，列代表document；对矩阵进行SVD分解得到 $A = USV^T$ ，其中 $V$ 表示文档在特征空间的特征向量；当新的query $q$ 来临时，对其做变换 $S^{-1}U^Tq$ 得到特征空间的向量，然后用余弦相似性计算与数据库中qeury的相似度即可。这种方法的缺点是当新数据越多的时候误差越大，需要重新计算SVD，同时对于同义词、一词多义等语义特征难以把握。
query的编码方式RNN：可以采用两个RNN。第一个RNN对每句话进行编码到一个向量；第二个RNN对第一个RNN的输出继续编码成一个向量。
query的编码方式auto-encoder，设定encoder的单元数，encoder前面加embeding等，相当于特征压缩。
query编码好之后的问题就转变成了一个retrivel的问题，采用KNN即可，同时可采用KD-Tree、LSH优化检索速度。

seq2seq

seq2seq使用两个RNN，一个作为输入的encoder，一个作为输出的decoder。需要注意的大致包含以下几点：

encoder中可以包含上一句，也可以包含上上一句。如果包含多个句子，可以采用启发式的encoder，训练2 step的RNN。第一个RNN负责对每个句子进行建模，第二个RNN负责对第一层RNN的输出进行建模输出变量。
decoder每个step可以采用attention
train的时候loss为 $C = \sum C_t$ ， $C_t = -\log(P(x_t|x_1,...,x_{t-1}))$ ，最小化loss等价于最大似然 $\max P(x|h)$ ， $h$ 代表encoder的输入， $x$ 代表decoder的输出。

这里写图片描述

RL

为什么要用强化学习

seq2seq有一些缺点：

只能计算前缀部分的概率（改进可用recursive neural network）
使用最大似然估计模型参数

第一个缺点使seq2seq不容易理解文本，因为AI-requires being able to understand bigger things from knowing about small parts.

第二个缺点使seq2seq的对话不像真实的对话，只考虑当前对话最大似然忽略了对话对未来的影响，容易出现“I don’t know”（因为其概率最大，其他方向的相互抵消）；对话重复（不考虑上下文的关系）等问题。

针对第二个缺点，我们了解到概率最高的输出不一定等于好的输出，好的对话需要考虑长久的信息。可以引入强化学习，人为设计相关的reward让机器更好地学习。

强化学习的架构设计

强化学习的本质是根据reward，使模型参数朝着reward增长最大的方向移动。
强化学习的聊天机器人架构设计如下：

这里写图片描述

其模型本质还是seq2seq，模型参数是 $\theta$ ，模型输入是 $h$ ，输出是 $x$ ，其与seq2seq不同的地方在于模型参数的更新方式：seq2seq按照cross entropy确定损失函数，然后最小化损失函数；DL最大化期望的reward。

期望reward的计算公式如下：

R θ = \sum h P (h) \sum x P θ (x | h) R (h, x) = E h \sim P (h), x \sim P θ (x | h) [R (h, x)] = 1 N \sum i R (h i, x i)

$\begin{split} R_{\theta} &= \sum_{h} P(h)\sum_{x} P_{\theta}(x|h) R(h,x) \\ &=E_{h \sim P(h),x \sim P_{\theta}(x|h)} [R(h,x)] \\ &=\frac{1}{N} \sum_i R(h^i,x^i) \end{split}$

我们的优化目标是：

θ * = arg max θ R θ

$\theta^* = \arg \max_{\theta} R_{\theta}$

Policy Gradient

在上一节中，我们得到了目标函数与优化目标，这节中，我们考虑如何求目标函数的梯度 $\nabla R_{\theta}$ 。

上一节中得到 $R_{\theta}$ 的方式是通过采样，通过采样的方法自然无法计算梯度实现梯度的传递。解决的思路是：将 $R_{\theta}$ 转化成梯度的采样。具体实现如下：

R θ = \sum h P (h) \sum x P θ (x | h) R (h, x) = E h \sim P (h), x \sim P θ (x | h) [R (h, x)] = 1 N \sum i R (h i, x i)

$\begin{split} R_{\theta} &= \sum_{h} P(h)\sum_{x} P_{\theta}(x|h) R(h,x) \\ &=E_{h \sim P(h),x \sim P_{\theta}(x|h)} [R(h,x)] \\ &=\frac{1}{N} \sum_i R(h^i,x^i) \end{split}$

\nabla R θ = \sum h P (h) \sum x \nabla P θ (x | h) R (h, x) = \sum h P (h) \sum x P θ (x | h) \nabla log P θ (x | h) R (h, x) = E h \sim P (h), x \sim P θ (x | h) [R (h, x) \nabla log P θ (x | h)] = 1 N \sum i R (h i, x i) \nabla log P θ (x i | h i)

$\begin{split} \nabla R_{\theta} &= \sum_{h} P(h)\sum_{x} \nabla P_{\theta}(x|h) R(h,x) \\ &= \sum_{h} P(h)\sum_{x} P_{\theta}(x|h) \nabla \log{P_{\theta}(x|h)} R(h,x) \\ &=E_{h \sim P(h),x \sim P_{\theta}(x|h)} [R(h,x) \nabla \log{P_{\theta}(x|h)}] \\ &=\frac{1}{N} \sum_i R(h^i,x^i) \nabla \log{P_{\theta}(x^i|h^i)} \end{split}$

$\theta$ 的更新方式如下：

θ \leftarrow θ + γ \nabla R θ

$\theta \leftarrow \theta + \gamma \nabla R_{\theta}$

这样更新的物理含义如下：

当 $R(h^i,x^i)$ 是正的，在更新后， $P_{\theta}(x^i|h^i)$ 会提高
当 $R(h^i,x^i)$ 是负的，在更新后， $P_{\theta}(x^i|h^i)$ 会降低

采用强化学习的模型与传统的seq2seq对比如下，其区别主要是强化学习对不同的loss用reward当做权重：

这里写图片描述

训练的整体过程如下：

这里写图片描述

Add Baseline

更新模型参数 $\theta$ 的时候，如果reward都是正的，理想情况下对于单一的 $h$ ， $P_{\theta}(x^i|h)$ 根据 $R(h,x^i)$ 的大小进行更新，可是采样的 $(h,x^i)$ 不一定能覆盖所有的情况，所以对reward要做baseline的设置。最简单的baseline就是 $\frac{1}{N} \sum R(h,x^i)$ 。

加入baseline之后的梯度为：

\nabla R θ = 1 N \sum i R (h i, x i) \nabla log P θ (x i | h i) \leftarrow 1 N \sum i (R (h i, x i) - b) \nabla log P θ (x i | h i)

$\begin{split} \nabla R_{\theta} &=\frac{1}{N} \sum_i R(h^i,x^i) \nabla \log{P_{\theta}(x^i|h^i)} \\ &\leftarrow \frac{1}{N} \sum_i (R(h^i,x^i)-b) \nabla \log{P_{\theta}(x^i|h^i)} \end{split}$

这里写图片描述

Reward设计

强化学习中，如果有人提供reward那是再好不过的了，不过这样投入的时间精力物力财力都很大，如何设计reward是这里讨论的问题。这里，提供三种reward的设计思路。

ease of answering

核心是P(“I don’t know”|response)比较小。

r 1 = - 1 N S \sum s \in S 1 N S log P s e q 2 s e q (s | a)

$r_1 = -\frac{1}{N_{\mathbb{S}}} \sum_{s \in \mathbb{S}} \frac{1}{N_S} \log P_{seq2seq}(s|a)$

虽然 $\mathbb{S}$ 不可能覆盖所有的null回答空间，不过类似的回答在空间的位置都是很接近的，所以可以抽样去模拟。

non-repetitive

核心是希望agent在每一轮对话中都可以产生新的信息，因此对连续两轮相同的输出进行惩罚。

r 2 = - log cos (h i, h i + 1)

$r_2 = -\log \cos(h^{i},h^{i+1})$

semantic coherence

为了保证产生的answer是合乎语言模型的，语义连贯。

r s = 1 N a log s e q 2 s e q P (a | q i, p i) + 1 N q i log b a c k w a r d s e q 2 s e q P (q i | a) a q i

$r_s = \frac{1}{N_a} \log_{seq2seq} P (a|q_i ,p_i ) + \frac{1}{N_{q_i}} \log_{seq2seq}^{backward} P (q_i|a ) a qi$

最终的reward如下图所示：

这里写图片描述

SeqGAN

架构设计

SeqGAN与传统GAN一样，包括generator、discriminator。不同的是网络是condition的，也就是使用了condition GAN，generator condition的是query（因为RNN网络本身有随机性，所以这里不加随机的输入），discriminator condition的也是query。

这里写图片描述