AI TIME欢迎每一位AI爱好者的加入!
在开放领域对话系统中,由于缺少包含知识标注、涵盖多个话题的多轮对话语料的支撑,知识驱动对话中的知识交互的研究受到了一定的限制。如可以在多轮对话中有效的对知识的交互进行建模,则可以极大地提升对话系统的逻辑性,信息量,可解释性等智能化程度,从而带来更好的用户体验。
在本次分享中,讲者将介绍一个最新构造的知识驱动的中文多轮对话数据集KdConv,并分析知识建模在对话系统中的应用。
郑楚杰,清华大学计算机系2020级博士生,交互式人工智能组(CoAI)成员,师从黄民烈副教授。主要研究方向为开放域对话系统。已在ACL上发表数篇论文。
本次分享论文地址:https://arxiv.org/abs/2004.04100
所构建的数据库已经开源:https://github.com/thu-coai/KdConv
一、介绍
a)
研究背景
背景知识对对话系统至关重要,有两大类主要应用:1) 搜索和问答类型的场景;2) 自然语言理解类的场景。
对于任务导向对话系统,背景知识一般被定义为槽值对,为问答和推荐提供了必要的信息;
对于开放域对话系统,它有助于生成更具有信息量和吸引力的回复;
从形态上来说,背景知识可以划分成结构化知识图谱或非结构化文本。
现有的带有外部知识的开放域对话语料中,根据收集方式的不同,大致可以分为两个类别:
利用现有的对话数据集,根据上下文标注相关的外部知识:
▪常用的标注方法有:命名实体识别(NER),字符串匹配,人工评分和规则过滤等;
▪但是也有缺点,不匹配的知识会为数据集带来噪音,不利于模型的训练;
基于给定的背景知识,由人类标注者从头开始构造对话数据集:
▪有些语料可能缺少轮次级别的标注;
▪对话内容局限于1-2个给定的话题,或缺少话题之间的关系:限制了对多样化的话题转移和知识规划的建模。
b)
研究动机
当前带有知识标注的涵盖多个话题的对话数据集有所欠缺;
对于进一步的知识交互的建模方面(例如话题转移和知识规划),现有的基于知识的对话数据集存在局限性