点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
多轮对话生成一直是一项典型的NLP应用,并且在众多任务上取得成功。多轮对话问题一直面临两大挑战,即如何准确地学习对话历史的向量表示,以及如何更好地学习应答与历史之间的关系,以保证对话的连贯性。
围绕这两大主题,讲者分别提出一种针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE,前者采用层次化BERT构建句子级的连贯关系,并提出两种预训练方法:掩藏句编码回归和分布式句子顺序预测;后者采用高斯混合先验生成对话,提高对话的多样性和丰富性;对比实验验证了讲者所提策略能更好的获得语义更丰富,更加连贯的应答。
顾小东:上海交通大学副教授,博士生导师,研究方向为程序搜索、对话生成、语言模型等。2017年博士毕业于香港科技大学,师从Sunghun Kim教授。2015-2016年间作为实习生在微软亚研院从事程序自动生成方面的研究。以第一作者在ICLR、ICSE、FSE、AAAI、IJCAI等人工智能和软件工程领域顶级会议发表论文数篇,并担任审稿人。
一、对话模型面临的两个挑战
开放领域的对话生成是一项典型自然语言应用问题,可概括为基于对话历史(即,上下文),采用机器学习算法,预测下一句对话。目前解决该问题的方法主要围绕图1所示的框架展开研究,首先给定模型一段对话历史,然后采用深度学习的方法学习对话历史的语义向量,最后通过构建对话历史与应答间的语义关系实现应答生成。上述过程存在两个挑战:
a.由于对话历史通常很长,信息量大,这对将对话历史表示为精确的语义向量带来很大困难;
b.如何学习应答与对话历史之间的关系,以保证对话的连贯性。
图1.对话模型常用框架流程介绍
二、DialogBERT预训练策略
1、问题概述
针对第一个挑战,如何学习复杂上下文的语义向量?近期的相关研究是采用预训练语言模型来处理对话历史,比如,Transformer、GPT2等。
其缺陷之一在于:模型将对话历史看作一个较长的单词序列(通常,前句和后句间具有非常连贯的语义),但对话中句子间存在多种关系,比如转折等,因此很难将对话历史看作是很长的文本序列处理;
缺陷之二在于:基于自注意力机制的Transformer模型&