对话模型，DialogBERT和DialogWAE优势何在？

AITIME论道

于 2021-03-22 17:49:43 发布

阅读量1.2k

点赞数

文章标签：算法机器学习人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/AITIME_HY/article/details/115107343

版权

本文介绍了针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE。DialogBERT通过层次化BERT和预训练策略改进对话历史的表示与句子连贯性，而DialogWAE利用GAN和高斯混合先验生成多样化的应答，以提高对话质量与连贯性。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

多轮对话生成一直是一项典型的NLP应用，并且在众多任务上取得成功。多轮对话问题一直面临两大挑战，即如何准确地学习对话历史的向量表示，以及如何更好地学习应答与历史之间的关系，以保证对话的连贯性。

围绕这两大主题，讲者分别提出一种针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE，前者采用层次化BERT构建句子级的连贯关系，并提出两种预训练方法：掩藏句编码回归和分布式句子顺序预测；后者采用高斯混合先验生成对话，提高对话的多样性和丰富性；对比实验验证了讲者所提策略能更好的获得语义更丰富，更加连贯的应答。

顾小东：上海交通大学副教授，博士生导师，研究方向为程序搜索、对话生成、语言模型等。2017年博士毕业于香港科技大学，师从Sunghun Kim教授。2015-2016年间作为实习生在微软亚研院从事程序自动生成方面的研究。以第一作者在ICLR、ICSE、FSE、AAAI、IJCAI等人工智能和软件工程领域顶级会议发表论文数篇，并担任审稿人。

一、对话模型面临的两个挑战

开放领域的对话生成是一项典型自然语言应用问题，可概括为基于对话历史（即，上下文），采用机器学习算法，预测下一句对话。目前解决该问题的方法主要围绕图1所示的框架展开研究，首先给定模型一段对话历史，然后采用深度学习的方法学习对话历史的语义向量，最后通过构建对话历史与应答间的语义关系实现应答生成。上述过程存在两个挑战：

a.由于对话历史通常很长，信息量大，这对将对话历史表示为精确的语义向量带来很大困难；

b.如何学习应答与对话历史之间的关系，以保证对话的连贯性。