CrossWOZ，一个大规模跨领域中文任务导向对话数据集

最新推荐文章于 2024-07-25 12:02:59 发布

PaperWeekly

最新推荐文章于 2024-07-25 12:02:59 发布

阅读量2.3k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/104681358

版权

CrossWOZ是由清华大学构建的首个中文大规模多领域任务导向对话数据集，涵盖5个领域，具有跨领域约束的挑战性。数据集包括6K对话，102K句子，用于研究对话系统中的各种任务。对话涉及景点、酒店、餐馆、地铁、出租，平均每个对话涉及3.2个领域。此外，CrossWOZ提供了全面的标注信息，包括对话意图、状态等，适合研究用户模拟器和对话管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2018 年，任务导向对话数据集 MultiWOZ 横空出世，并被评为当年 EMNLP 最佳资源论文。由于其大规模多领域的特点，引发了任务导向对话领域新的一轮发展热潮。

为了进一步推动多领域（特别是跨领域）的研究以及填补中文任务导向对话数据的空白，清华大学计算机系、人工智能研究院 CoAI 小组构建了 CrossWOZ，一个大规模跨领域中文任务导向对话数据集。论文已被 Transactions of the Association for Computational Linguistics (TACL) 接收。

论文链接：https://arxiv.org/abs/2002.11893

数据和代码：https://github.com/thu-coai/CrossWOZ