多轮对话系统建模分为基于生成文本的方法和基于检索的方法。2019年,阿里达摩院开源了新一代人机对话模型 Enhanced Sequential Inference Model(ESIM),论文链接这里。该模型是基于检索的多伦对话模型,将准确率提升至 94.1%,曾一度打破世界纪录。笔者近期拜读了论文,对项目代码也进行了源码级分析。对于项目的理解,这里写几点体会。
要点一
基于检索的多轮对话侧重于面向目标,着重于从一组对话候选文本中选择正确的回复。多轮对话回复的过程就是完成选择一句恰当回复的任务,该模型将多轮对话内容连接成一个长序列,并将多轮对话回复选择任务转换为一个句子对的二进制分类(即下一个句子是否是当前对话的回复)任务。
要点二
多轮回复选择任务是在给定多轮对话的情况下,从候选池中选择下一对话内容。该模型将问题转换为二进制分类任务,即对于给定多轮对话和候选回复,模型只需要确定候选回复是否正确。
要点三
增强顺序推理模型(ESIM)是基于注意力机制力的句子对分类方法,主要由三个主要组成部分组成,即输入编码(Input Encoding)、局部匹配(Local Matching)和匹配合成(Matching Composition)。下图是模型的基本架构。