ocr中文数据集_CrossWOZ:一个大规模跨领域中文任务导向对话数据集

e76db40299e2d03c6570f835a8c89e1a.png

2018 年,任务导向对话数据集 MultiWOZ 横空出世,并被评为当年 EMNLP 最佳资源论文。由于其大规模多领域的特点,引发了任务导向对话领域新的一轮发展热潮。

为了进一步推动多领域(特别是跨领域)的研究以及填补中文任务导向对话数据的空白,清华大学计算机系、人工智能研究院 CoAI 小组构建了 CrossWOZ,一个大规模跨领域中文任务导向对话数据集。论文已被 Transactions of the Association for Computational Linguistics (TACL) 接收。

论文链接:https://arxiv.org/abs/2002.11893

数据和代码:https://github.com/thu-coai/CrossWOZ

54790d2321efe33ec1712eff610bf213.png
▲ CrossWOZ的一个对话片段,具体酒店名字被A,B,C替代

相比于之前的任务导向对话数据集(特别是MultiWOZ),CrossWOZ有三大特点:

1. 在对话中,用户在某个领域的选择可能会影响到与之相关的领域的选择。如上面的这个例子,用户选择了北京欢乐谷作为景点领域的结果,那么之后选择的酒店就要在它附近。不同的景点选择会对酒店产生不同的约束。这种跨领域约束随着对话的进行而具体化,需要对话双方都能对上下文有更好的理解,因而更具有挑战性。

2. 这是第一个中文大规模多领域任务导向对话数据集,包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。

3. 标注信息全面,可以用于研究任务导向对话系统中各个方面。除了提供对话双方的对话意图、系统端的对话状态这些信息之外,还额外提供了每轮用户端的对话状态。用户端状态记录了目标的完成情况,每轮根据系统回复动态更新,可用于研究用户模拟器的搭建。

数据收集过程

收集数据时模拟的对话场景是一名游客向系统咨询北京的旅游信息,分为以下几个步骤:

1. 领域数据库构建:从网络上爬取了北京的景点、酒店、餐馆信息,以及这些地点的邻近关系。同时这些地点附近的地铁站组成了地铁数据库。出租领域无需数据库。

cc3d5e9a132addd2f382a5781ce3ab6d.png
▲ 数据库统计信息

2. 用户目标生成:通过随机采样的方式生成各领域的目标。如下表,有值的表示约束条件,没有值的表示需求信息,粗体的表示跨领域的约束,用占位符表示。这个例子里用户要找一个免费的景点及其附近一家提供叫醒服务的酒店,并预订一辆从景点到酒店的出租。

250d3d7644a667fb1065f8607f283cd8.png
▲ 用户目标示例

3. 对话数据收集:雇佣人员在线匹配进行实时对话。用户端以用户目标作为初始状态,通过对话获取信息,每轮更新用户状态,填写需求的信息和替换跨领域的约束。并选择本轮要表达的约束或者要询问的信息。系统端每轮维护各个领域的查询表单作为系统状态,根据查询结果回复用户。

4. 数据处理:使用一些规则根据用户和系统的状态推导出对话意图。经过三个专家对少量对话的核验,数据标注质量较高。

30c9c6a6c1f0541dedf59a6ac31d7ed8.png

数据统计

将对话分成五种类型:单领域 S,多领域 M,多领域加交通 M+T,跨领域 CM,跨领域加交通 CM+T。交通代表了地铁和出租领域,M 和 CM 的区别是有没有跨领域的约束。

统计信息如下表。可以发现含有跨领域约束的对话 (CM,CM+T) 会导致更多的系统多次查找 (Multi-query)、找不到结果 (NoOffer)、用户自主修改目标 (Goal change) 的情况。

5fa87c71b571f0b112e116dbcb4e7e3c.png

5362a13f21cd0a2d2abe49be6fc2fc54.png

基线模型

由于丰富的标注信息,CrossWOZ 数据集可用于多种任务的研究。依托于 ConvLab-2 对话平台,我们提供了 NLU、DST、Policy、NLG 的基线模型以及 user simulator,部分结果如下表。实验说明跨领域的约束对各个任务都有挑战性。

adb69f2e215fe10d9af68bbb1e8d5f7e.png

#投 稿 通 道#

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

投稿方式:

• 方法一:在PaperWeekly知乎专栏页面点击“投稿”,即可递交文章

• 方法二:发送邮件至:hr@paperweekly.site ,所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

加入社区:http://paperweek.ly

微信公众号:PaperWeekly

新浪微博:@PaperWeekly

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值