ACL 2019 | 神经网络答复生成的检索增强对抗训练

最新推荐文章于 2024-08-23 10:16:26 发布

a609640147

最新推荐文章于 2024-08-23 10:16:26 发布

阅读量543

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/92840540

版权

对话系统大多数是基于生成式或者检索式的方法构建的，现有的对话系统没有从不同模型的优势中获益。检索式的方法依赖人工对候选答复进行筛选、重排序，由于答复是人工编写的，其有可能与输入信息不匹配。生成式的方法可以依据输入信息自动生成答复，但它会遇到生成大众化答复的问题。很自然，我们希望能利用检索的答复来加强生成的答复。为了利用检索的答复信息加强生成的答复，本文提出了一种检索增强对抗训练的神经网络答复生成方法(REAT)。REAT采用了encoder-decoder的架构，同时也检索式系统得到的N-bset候选答复。

论文地址:
https://arxiv.org/abs/1809.04276

引言

为了提升现有的对话生成系统，本文提出了检索增强的对抗训练方法来更好地利用N-best候选答复。首先，我们使用一个判别器代替原有的最大似然估计目标来监督训练的过程。另外，N-best候选答复也被用做于判别器的参考来提升它的分类准确度。事实证明，N-best候选答复通过对抗训练有利于生成模型。实验结果表明，我们提出的REAT模型性能优于普通的seq2seq模型，以及其他对抗训练方法。

数据集

本文实验基于NTCIR语料集，其数据来源于新浪微博。首先，我们借助LTP对语句做切分词处理。同时删除长度小于5的句子，其有利于缓解生成通用性答复的现象。我们从语料集中随机选取10000对语料做为开发集，然后选取10000对语料做为测试集，训练集语料大小为119941。

模型

检索增强的对抗训练

判别器的目标是区分一个答复y是人工生成的还是机器生成的，其概率公式如下：
$D_{\Phi}(y|x,\{c\})$
其中，x是输入信息， ${c\}=\{c^1,...,c^k,...,c^N\}$ 是N-best答复候选集， $\Phi$ 表示判别器的模型参数。判别器的目标方程是最小化分类错误率，具体如下：
$J_D(\Phi)=-E_{y\sim ground-truth}logD_{\Phi}(y|x,\{c\})-E_{y \sim G}log(1-D_{\Phi}(y|x,\{c\}))$
我们把检索加强的答复生成看作是一个强化学习问题，其通过策略梯度算法将误差反向传播到生成器。生成器可以被看做是一个agent，其参数 $\theta$ 定义了更新策略 $\phi$ 。在每个时间步，生成器生成一个词并更新其当前状态 $s$ 。最后，agent能够从判别器获得一个奖励 $r$ ，它答复是人工生成 $D_{\Phi}(y|,\{c\})$ 的概率表示。
生成器的目标是最小化负期望奖励，梯度 $\theta$ 计算如下：
$J_G(\theta)=-E_{y\sim G}(D_{\Phi}(y|x,\{c\}))$
$J_G(\theta)=-E(D_{\Phi}(y|x,\{c\})),y \sim G$
在对抗训练之前，生成器与判别器都是预先训练好的。生成器通过MLE损失在训练集上完成预训练，判别器利用人工生成的答复做为正样本以及机器生成的答复做为正样本完成模型的预训练。对于预训练的生成器与判别器，对抗训练如下：
$\underset{G}{min}\underset{D}{max}J_G(\theta)-J_D(\Phi)$
其中，判别器尽量区分人工生成的答复与机器生成的答复，生成器通过生成human-like的答复尽量去迷惑判别器。

判别器

判别器是二分类器，其通过输入答复y，信息x以及N-best候选答复 ${c\}$ 来判断y是人工生成的还是机器生成的。我们通过计算出andidate-aware response representation $z^c$ 来建模答复与候选集之间的关联。每个候选对象通过candidate LSTM进行信息编码：
$u_i^k=f_c(c_i^k,u^k_{i-1})$
其中， $c_i^k$ 是第k个候选对象的第i个词， $u_i^k$ 表示i时刻的隐层状态。一般情况下， $u_T^k$ 被用来初始化response LSTM的隐层状态， $T$ 是句子长度。
Response LSTM用于为每个候选对象 $c^k$ 计算局部candidate-aware response representation $z^{c^k}$ ：
$v_i^k=f_y(y_i,v_{i-1}^k)$
$z^{c^k}=v^k_T$
$z^c=\frac{1}{N}\sum^{N}_{k=1}z^{c^k}$
与此同时，我们按照上述公式也可以得到 $z^x$ ，用于表征信息(message)与答复(response)之间的关联。

最后，人工生成答复的概率 $D_{\Phi} (y|x,\{c\})$ 计算如下：
$D_{\Phi}(y|x,\{c\})=\sigma(MLP([z^x,z^c]))$
其中， $[\cdot,\cdot]$ 表示拼接操作， $\sigma$ 是sigmoid函数。

生成器

生成器是一个多源的seq2seq模型，由encoder与decoder组成。Encoder读取信息(message)与N-best候选答复(response)，并将它们编码到上下文向量中(context vector)。Decoder是一个语言模型，其通过上下文向量逐字生成答复。
Encoder通过双向LSTM编码每个候选词汇以及它在候选答复中的上下文信息：
$\overrightarrow{h_i^k}=g^0_c(c_i^k,\overrightarrow{h^k_{i-1}})$
$\overleftarrow{h_i^k}=g_c^1(c_i^k,\overleftarrow{h^k_{i-1}})$
$h_i^k=(\overrightarrow{h^k_{i}},\overrightarrow{h^k_{i-1}})$
Encoder采用了2个级别的注意力结构，即word-level注意力与sentence-level注意力，其计算公式如下：
$a_{ij}^k=\frac{exp(q(s_{j-1},h_i^k))}{\sum_{t=1}^{T}exp(q(s_{j-1},h_t^k))}$
$a_j^{c^k}=\sum^{T}_{i=1}a_{ij}^kh_i^k$
$\beta_{ij}=\frac{exp(q(s_{j-1},a_j^{c^k}))}{\sum_{n-1}^{N}exp(q(s_{j-1},a_j^{c^n}))}$
$a_j^c=\sum_{k=1}^{N}\sum_{i=1}^{T}\beta_{kj}a_{ij}^kh_i^k$
其中， $a_{ij}^k$ 是 $c^k$ 中第i个词的word-level权重， $s_j-1$ 是decoder的隐层状态，q是前馈神经网络， $\beta_{ij}^k$ 是 $c^k$ 的sentence-level权重。 $a^c_j$ 是候选上下文向量(candidate context vector)，同样我们也可以得到信息上下文向量(message context vector) $a^x_j$ 。decoder端j时刻的隐层状态计算如下：
$s_j=g_y([y_{i-1},a^c_j,a^x_j],s_{j-1})$
其中， $g_y$ 是decoder端的计算单元。
####基于检索的模型
为了获取N-best答复候选集，我们借助Lucene实现答复的筛选。具体地，我们首先合并所有的message-response对，并为它们构建索引。然后，使用每个message做为query来搜索K篇文档，这些文档的message与上述query相似。接着，我们根据它们的匹配分值，对K篇文档重排序，去除query为message的此条数据。最终返回N个response做为N-best答复候选集。

实验

本文实验是基于开源框架OPEN-NMT，实验中用了5个基线模型，分别是Rtr、S2S、MS2S、Edit、AL。我们交互训练生成器与判别器，每训练20轮判别器，再去训练10轮生成器。为了保证对比的合理性，我们设置LSTM模型隐层节点数为500，batch size的大小为64，优化器选择Adam。人工评估与自动评估实验结果表明，我们提出的模型性能明显优于众多基线模型。