对话系统学习笔记（3）

最新推荐文章于 2020-08-14 21:48:33 发布

xiangyu_zhao

最新推荐文章于 2020-08-14 21:48:33 发布

阅读量266

点赞数

分类专栏：笔记 dialog 文章标签：对话系统

本文链接：https://blog.csdn.net/qq_38684093/article/details/83386636

版权

笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

dialog

3 篇文章 0 订阅

订阅专栏

对话系统学习笔记（3）–Deep Reinforcement Learning for Dialogue Generation

此篇文章是李纪为博士于EMNLP_2016发表的一篇有关于增强对话的多样性，一致性，和持续性的文章。
首先，对于传统的Sequence-to-Sequence模型存在以下问题：

模型在decode时采用的方法是用MLE来进行评价，产生的结果是dull response，无意义
由于没有考虑上下文，会产生死循环

针对以上问题，作者提出了以下方案：

提出新的reward函数来代替MLE方法
建立长期依赖关系

模型建立

该模型依旧使用LSTM encoder-decoder模型，不同之处在与使用了两个机器人进行对话：
在这里插入图片描述该系统包含两个机器人，用 p 表示第一个机器人生成的句子，用 q 表示第二个机器人生成的句子。

reward函数定义

Action：a 是产生的响应，生成的句子可以是任意长度。
State：上一轮两个机器人的对话 [pi,qi]。对话历史通过将 pi 和 qi
拼接起来，利用 LSTM 编码。
Policy：指给定 State 之后各个 Action 的概率分布，也就是 pRL(pi+1|pi,qi)

1. 避免无聊响应
作者给出的函数为：
在这里插入图片描述
其中，S是建立好的无聊响应的response集和，Ns是回答S中无聊响应的个数，响应a为输入时模型输出s的概率，本文设计了8个常见的dull utterance作为整体使用的dull utterance集合。作者在实验中证明，由于dull utterance之间彼此表示接近，所以仅仅使用集合中的8个，效果就能够覆盖得很好。在计算过程中，由于p小于1，所以整体r1大于0。
2.避免重复回答
函数为：
在这里插入图片描述
h代表的是相近两轮对话的代表值。cos是对话的相似度，r2也为正值。
3.避免高reward回答
函数为：

r3的目的是避免只产生高reward回答而舍弃了对话的连贯性。该函数分为两部分，第一部分是基于上文产生a的概率，第二部分是对a产生q的反向预测。反向的seq2seq是使用source和target反过来训练的另外一个模型，这样做的目的是为了提高q和a之间的相互关系。
最终函数为：
在这里插入图片描述
最终的 reward 由这三部分加权得到。
实验评测