好的数据集能让生成的对话配的上你的才华-------知识驱动的中文多轮对话数据集KdConv...

AITIME论道

于 2020-08-04 08:07:08 发布

阅读量1k

点赞数 1

文章标签：大数据编程语言机器学习人工智能知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/107805203

版权

KdConv是一个知识驱动的中文多轮对话数据集，旨在解决开放领域对话系统中知识交互的研究限制。数据集包含结构化和非结构化知识，覆盖电影、音乐和旅游等领域，用于话题转移和知识规划的研究。通过引入背景知识，模型性能得到提升，但知识建模仍具挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI TIME欢迎每一位AI爱好者的加入！

在开放领域对话系统中，由于缺少包含知识标注、涵盖多个话题的多轮对话语料的支撑，知识驱动对话中的知识交互的研究受到了一定的限制。如可以在多轮对话中有效的对知识的交互进行建模，则可以极大地提升对话系统的逻辑性，信息量，可解释性等智能化程度，从而带来更好的用户体验。

在本次分享中，讲者将介绍一个最新构造的知识驱动的中文多轮对话数据集KdConv，并分析知识建模在对话系统中的应用。

郑楚杰，清华大学计算机系2020级博士生，交互式人工智能组（CoAI）成员，师从黄民烈副教授。主要研究方向为开放域对话系统。已在ACL上发表数篇论文。

本次分享论文地址：https://arxiv.org/abs/2004.04100

所构建的数据库已经开源：https://github.com/thu-coai/KdConv

一、介绍

a)

研究背景

背景知识对对话系统至关重要，有两大类主要应用：1) 搜索和问答类型的场景；2) 自然语言理解类的场景。

对于任务导向对话系统，背景知识一般被定义为槽值对，为问答和推荐提供了必要的信息；
对于开放域对话系统，它有助于生成更具有信息量和吸引力的回复；
从形态上来说，背景知识可以划分成结构化知识图谱或非结构化文本。

现有的带有外部知识的开放域对话语料中，根据收集方式的不同，大致可以分为两个类别：

利用现有的对话数据集，根据上下文标注相关的外部知识：
▪常用的标注方法有：命名实体识别（NER），字符串匹配，人工评分和规则过滤等；
▪但是也有缺点，不匹配的知识会为数据集带来噪音，不利于模型的训练；
基于给定的背景知识，由人类标注者从头开始构造对话数据集：
▪有些语料可能缺少轮次级别的标注；
▪对话内容局限于1-2个给定的话题，或缺少话题之间的关系：限制了对多样化的话题转移和知识规划的建模。

b)

研究动机

当前带有知识标注的涵盖多个话题的对话数据集有所欠缺；
对于进一步的知识交互的建模方面（例如话题转移和知识规划），现有的基于知识的对话数据集存在局限性

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。