深度强化学习用于对话生成（论文笔记）_强化学习+对话生成论文-CSDN博客

本文链接：https://blog.csdn.net/qq_28835913/article/details/85290866

本文探讨了如何结合深度学习和强化学习改进对话生成，以避免生成通用回答并促进持久对话。通过模拟两个agent间的对话，使用策略梯度方法优化预期回报，实验显示这种方法提高了对话的多样性和长度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、如何定义一个好的对话

尽管SEQ2SEQ模式在对话生成方面取得了成功，但仍出现了两个问题（图1）：

通过使用最大似然估计(MLE)目标函数预测给定会话上下文中的下一个对话转角来训练SEQ2SEQ模型。SEQ2SEQ模型倾向于生成概率较大、高度通用的回答，比如“我不知道”，而不管输入是什么。然而，“我不知道”显然不是一个好的行动，因为它结束了谈话。
系统被困在一个无限循环的重复响应中。

图1.使用在OpenSubtitle数据集上训练的4层lstm编解码器模拟两个代理之间的对话标题

好的对话应当是前瞻性的或互动性的，信息丰富，连贯一致。因此，我们的目标是整合SEQ2SEQ和强化学习，同时利用两者的优势。实验结果(表1右侧面板的抽样结果)表明，对比使用MLE目标函数训练的标准SEQ2SEQ模型，我们的方法促进了更持久的对话（图2）。

二、开放领域对话中的强化学习

在这一部分中，我们详细描述了所提出的RL模型的组成部分。

学习系统由两个agents组成。我们使用p来表示从第一个agent生成的句子，使用q表示来自第二个agent的句子，两个agents轮流交谈。一个对话可以表示为由两个agents生成的句子的交替序列： $\left ( p_{1},q_{1} ,p_{2},q_{2}......p_{i},q_{i}\right )$ 。

作者对网络参数进行了优化，以便使用策略搜索最大限度地实现预期的未来回报。Policy gradient方法比Q-learning方法更适合我们的场景。因为在改变目标和调整策略以实现长期奖励最大化之前，我们可以使用已经产生合理响应的MLE参数初始化编码器-解码器 RNN。而Q-learning直接估计每项行动的未来预期回报，这可能与MLE目标相差数量级，因此使MLE参数不适合初始化。