论文笔记整理:叶宏彬,浙江大学计算机博士生。
论文地址:https://arxiv.org/abs/2009.07543
摘要:近年来,神经对话问答的产生已广受欢迎。现有对话模型学习中广泛采用了最大似然估计目标(MLE)。但是,当涉及到开放域对话设置时,使用MLE目标函数训练的模型会受到低多样性问题的困扰。人类不仅可以从积极的信号中学习,而且还可以从纠正不良行为的行为中受益,在这项工作中,我们将对比性学习引入了对话生成中,其中模型明确地感知了精心选择的积极与消极之间的差异话语。具体来说,我们采用预先训练的基线模型作为参考。在对比学习期间,与参考模型相比,训练了目标对话模型以提供正样本的较高条件概率和那些负样本的较低条件概率。为了管理人类对话中普遍存在的多重映射关系,我们通过分组对偶采样来增强对比对话学习。大量的实验结果表明,所提出的基于组的对比学习框架适合于训练大量的神经对话生成模型,其性能优于基线训练方法。