对话模型,DialogBERT和DialogWAE优势何在?

本文介绍了针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE。DialogBERT通过层次化BERT和预训练策略改进对话历史的表示与句子连贯性,而DialogWAE利用GAN和高斯混合先验生成多样化的应答,以提高对话质量与连贯性。
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

多轮对话生成一直是一项典型的NLP应用,并且在众多任务上取得成功。多轮对话问题一直面临两大挑战,即如何准确地学习对话历史的向量表示,以及如何更好地学习应答与历史之间的关系,以保证对话的连贯性。

围绕这两大主题,讲者分别提出一种针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE,前者采用层次化BERT构建句子级的连贯关系,并提出两种预训练方法:掩藏句编码回归和分布式句子顺序预测;后者采用高斯混合先验生成对话,提高对话的多样性和丰富性;对比实验验证了讲者所提策略能更好的获得语义更丰富,更加连贯的应答。

顾小东:上海交通大学副教授,博士生导师,研究方向为程序搜索、对话生成、语言模型等。2017年博士毕业于香港科技大学,师从Sunghun Kim教授。2015-2016年间作为实习生在微软亚研院从事程序自动生成方面的研究。以第一作者在ICLR、ICSE、FSE、AAAI、IJCAI等人工智能和软件工程领域顶级会议发表论文数篇,并担任审稿人。

一、对话模型面临的两个挑战

开放领域的对话生成是一项典型自然语言应用问题,可概括为基于对话历史(即,上下文),采用机器学习算法,预测下一句对话。目前解决该问题的方法主要围绕图1所示的框架展开研究,首先给定模型一段对话历史,然后采用深度学习的方法学习对话历史的语义向量,最后通过构建对话历史与应答间的语义关系实现应答生成。上述过程存在两个挑战:

a.由于对话历史通常很长,信息量大,这对将对话历史表示为精确的语义向量带来很大困难;

b.如何学习应答与对话历史之间的关系,以保证对话的连贯性。

图1.对话模型常用框架流程介绍

二、DialogBERT预训练策略

1、问题概述

针对第一个挑战,如何学习复杂上下文的语义向量?近期的相关研究是采用预训练语言模型来处理对话历史,比如,Transformer、GPT2等。

其缺陷之一在于:模型将对话历史看作一个较长的单词序列(通常,前句和后句间具有非常连贯的语义),但对话中句子间存在多种关系,比如转折等,因此很难将对话历史看作是很长的文本序列处理;

缺陷之二在于:基于自注意力机制的Transformer模型&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值