好的数据集能让生成的对话配的上你的才华-------知识驱动的中文多轮对话数据集KdConv...

KdConv是一个知识驱动的中文多轮对话数据集,旨在解决开放领域对话系统中知识交互的研究限制。数据集包含结构化和非结构化知识,覆盖电影、音乐和旅游等领域,用于话题转移和知识规划的研究。通过引入背景知识,模型性能得到提升,但知识建模仍具挑战。
摘要由CSDN通过智能技术生成

AI TIME欢迎每一位AI爱好者的加入!

在开放领域对话系统中,由于缺少包含知识标注、涵盖多个话题的多轮对话语料的支撑,知识驱动对话中的知识交互的研究受到了一定的限制。如可以在多轮对话中有效的对知识的交互进行建模,则可以极大地提升对话系统的逻辑性,信息量,可解释性等智能化程度,从而带来更好的用户体验。

在本次分享中,讲者将介绍一个最新构造的知识驱动的中文多轮对话数据集KdConv,并分析知识建模在对话系统中的应用。

郑楚杰,清华大学计算机系2020级博士生,交互式人工智能组(CoAI)成员,师从黄民烈副教授。主要研究方向为开放域对话系统。已在ACL上发表数篇论文。

本次分享论文地址:https://arxiv.org/abs/2004.04100

所构建的数据库已经开源:https://github.com/thu-coai/KdConv

一、介绍

a)

研究背景

背景知识对对话系统至关重要,有两大类主要应用:1) 搜索和问答类型的场景;2) 自然语言理解类的场景。

  • 对于任务导向对话系统,背景知识一般被定义为槽值对,为问答和推荐提供了必要的信息;

  • 对于开放域对话系统,它有助于生成更具有信息量和吸引力的回复;

  • 从形态上来说,背景知识可以划分成结构化知识图谱或非结构化文本。

现有的带有外部知识的开放域对话语料中,根据收集方式的不同,大致可以分为两个类别:

  • 利用现有的对话数据集,根据上下文标注相关的外部知识:

    ▪常用的标注方法有:命名实体识别(NER),字符串匹配,人工评分和规则过滤等;

    ▪但是也有缺点,不匹配的知识会为数据集带来噪音,不利于模型的训练;

  • 基于给定的背景知识,由人类标注者从头开始构造对话数据集: 

    ▪有些语料可能缺少轮次级别的标注;

    ▪对话内容局限于1-2个给定的话题,或缺少话题之间的关系:限制了对多样化的话题转移和知识规划的建模。

b)

研究动机

  • 当前带有知识标注的涵盖多个话题的对话数据集有所欠缺;

  • 对于进一步的知识交互的建模方面(例如话题转移和知识规划),现有的基于知识的对话数据集存在局限性

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值