英文对话数据集总结

这篇博客介绍了多个对话和问答数据集,包括开放领域对话、任务型对话以及复杂问题回答的数据集,如PersonaChat、WebQuestions、ComplexQuestions、SimpleQuestions等。这些数据集用于训练和评估人工智能在理解和生成自然语言对话、回答复杂问题的能力,对于对话系统和问答模型的开发具有重要意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这个网站里也可以找到各种类型的数据https://parl.ai/docs/tasks.html

开放领域对话数据集

Dialogue NLI

Dialogue NLI 是一个解决对话模型一致性问题的数据集。
在这里插入图片描述

相关论文:Dialogue Natural Language Inference
数据地址:https://wellecks.github.io/dialogue_nli/(须某种手段才可以打开,你懂的)

Cmu Document Grounded Conversations

用于文本对话的基于文档的数据集,其中文档是关于流行电影的维基百科文章。包含 4112 个对话,每个对话平均 21.43 轮。
在这里插入图片描述

论文:A Dataset for Document Grounded Conversations
Kangyan Zhou, Shrimai Prabhumoye, Alan W Black
数据集地址:https://github.com/festvox/datasets-CMU_DoG

persona-chat数据集

数据集通过亚马逊劳务众包平台“Amazon MechanicalTurk”收集,包含来自人类的162064个对话语句,单个语句每句最多15个词。其中的人类是随机配对的,每个人被随机分配个性化角色,此时每个人只知道自己的个性化角色,不知道对方的个性化角色。每个人要按照被分配的个性化角色进行自然的对话,并且在谈话中了解对方。这就使对话代理可以试着学习模仿有趣和有吸引力的谈话。
数据收集由三个阶段项目组成:

1、构建个性化角色:共构建1155种个性化角色,每个个性化角色至少有5个Profile简介信息描述句,每句最多15个词,留出100个个性化角色用于验证,100个用于测试,其他的用于训练

2、调整个性化角色ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值