英文对话数据集总结

最新推荐文章于 2024-11-18 13:52:29 发布

小白之比白更白

最新推荐文章于 2024-11-18 13:52:29 发布

阅读量4.1k

点赞数 1

分类专栏：知识图谱文章标签：人工智能人机交互聊天机器人

本文链接：https://blog.csdn.net/weixin_41753316/article/details/118905368

版权

这篇博客介绍了多个对话和问答数据集，包括开放领域对话、任务型对话以及复杂问题回答的数据集，如PersonaChat、WebQuestions、ComplexQuestions、SimpleQuestions等。这些数据集用于训练和评估人工智能在理解和生成自然语言对话、回答复杂问题的能力，对于对话系统和问答模型的开发具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个网站里也可以找到各种类型的数据https://parl.ai/docs/tasks.html

开放领域对话数据集

Dialogue NLI

Dialogue NLI 是一个解决对话模型一致性问题的数据集。
在这里插入图片描述

相关论文：Dialogue Natural Language Inference
数据地址：https://wellecks.github.io/dialogue_nli/（须某种手段才可以打开，你懂的）

Cmu Document Grounded Conversations

用于文本对话的基于文档的数据集，其中文档是关于流行电影的维基百科文章。包含 4112 个对话，每个对话平均 21.43 轮。
在这里插入图片描述

论文：A Dataset for Document Grounded Conversations
Kangyan Zhou, Shrimai Prabhumoye, Alan W Black
数据集地址：https://github.com/festvox/datasets-CMU_DoG

persona-chat数据集

数据集通过亚马逊劳务众包平台“Amazon MechanicalTurk”收集，包含来自人类的162064个对话语句，单个语句每句最多15个词。其中的人类是随机配对的，每个人被随机分配个性化角色，此时每个人只知道自己的个性化角色，不知道对方的个性化角色。每个人要按照被分配的个性化角色进行自然的对话，并且在谈话中了解对方。这就使对话代理可以试着学习模仿有趣和有吸引力的谈话。
数据收集由三个阶段项目组成：

1、构建个性化角色：共构建1155种个性化角色，每个个性化角色至少有5个Profile简介信息描述句，每句最多15个词，留出100个个性化角色用于验证，100个用于测试，其他的用于训练

2、调整个性化角色ÿ