这个网站里也可以找到各种类型的数据https://parl.ai/docs/tasks.html
开放领域对话数据集
Dialogue NLI
Dialogue NLI 是一个解决对话模型一致性问题的数据集。
相关论文:Dialogue Natural Language Inference
数据地址:https://wellecks.github.io/dialogue_nli/(须某种手段才可以打开,你懂的)
Cmu Document Grounded Conversations
用于文本对话的基于文档的数据集,其中文档是关于流行电影的维基百科文章。包含 4112 个对话,每个对话平均 21.43 轮。
论文:A Dataset for Document Grounded Conversations
Kangyan Zhou, Shrimai Prabhumoye, Alan W Black
数据集地址:https://github.com/festvox/datasets-CMU_DoG
persona-chat数据集
数据集通过亚马逊劳务众包平台“Amazon MechanicalTurk”收集,包含来自人类的162064个对话语句,单个语句每句最多15个词。其中的人类是随机配对的,每个人被随机分配个性化角色,此时每个人只知道自己的个性化角色,不知道对方的个性化角色。每个人要按照被分配的个性化角色进行自然的对话,并且在谈话中了解对方。这就使对话代理可以试着学习模仿有趣和有吸引力的谈话。
数据收集由三个阶段项目组成:
1、构建个性化角色:共构建1155种个性化角色,每个个性化角色至少有5个Profile简介信息描述句,每句最多15个词,留出100个个性化角色用于验证,100个用于测试,其他的用于训练
2、调整个性化角色ÿ