CrossWOZ,一个大规模跨领域中文任务导向对话数据集

CrossWOZ是由清华大学构建的首个中文大规模多领域任务导向对话数据集,涵盖5个领域,具有跨领域约束的挑战性。数据集包括6K对话,102K句子,用于研究对话系统中的各种任务。对话涉及景点、酒店、餐馆、地铁、出租,平均每个对话涉及3.2个领域。此外,CrossWOZ提供了全面的标注信息,包括对话意图、状态等,适合研究用户模拟器和对话管理。
摘要由CSDN通过智能技术生成

2018 年,任务导向对话数据集 MultiWOZ 横空出世,并被评为当年 EMNLP 最佳资源论文。由于其大规模多领域的特点,引发了任务导向对话领域新的一轮发展热潮。

为了进一步推动多领域(特别是跨领域)的研究以及填补中文任务导向对话数据的空白,清华大学计算机系、人工智能研究院 CoAI 小组构建了 CrossWOZ,一个大规模跨领域中文任务导向对话数据集。论文已被 Transactions of the Association for Computational Linguistics (TACL) 接收。

论文链接:https://arxiv.org/abs/2002.11893

数据和代码:https://github.com/thu-coai/CrossWOZ

▲ CrossWOZ的一个对话片段,具体酒店名字被A,B,C替代

相比于之前的任务导向对话数据集(特别是MultiWOZ),CrossWOZ有三大特点: 

1. 在对话中,用户在某个领域的选择可能会影响到与之相关的领域的选择。如上面的这个例子,用户选择了北京欢乐谷作为景点领域的结果,那么之后选择的酒店就要在它附近。不同的景点选择会对酒店产生不同的约束。这种跨领域约束随着对话的进行而具体化,需要对话双方都能对上下文有更好的理解,因而更具有挑战性。

2. 这是第一个中文大规模多领域任务导向对话数据集,包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。 

3. 标注信息全面,可以用于研究任务导向对话系统中各个方面。除了提供对话双方的对话意图、系统端的对话状态这些信息之外,还额外提供了每轮用户端的对话状态。用户端状态记录了目标的完成情况,每轮根据系统回复动态更新,可用于研究用户模拟器的搭建。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值