【开源训练数据集1】神经语言程式(NLP)项目的15 个开源训练数据集

suoge223

已于 2024-02-15 10:53:56 修改

阅读量1.4k

点赞数 22

分类专栏：机器学习实用指南文章标签：自然语言处理人工智能 python 大数据

于 2024-02-11 21:58:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010542847/article/details/136098049

版权

本文汇总了15个用于训练聊天机器人的开源数据集，包括问答、客户支持、对话和多语言数据。如WikiQA、Ubuntu对话、电影对白、NUS语料库等，适用于NLP任务的情感分析、新闻分类、阅读理解等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一个聊天机器人需要大量的训练数据，以便在无需人工干预的情况下快速解决用户的询问。然而，聊天机器人开发的主要瓶颈是获取现实的、面向任务的对话数据来训练这些基于机器学习的系统。

我们整理了训练聊天机器人所需的对话数据集，包括问答数据、客户支持数据、对话数据和多语言数据。

用于聊天机器人训练的问答数据集

问题-答案数据集：该语料库包括维基百科文章、从中手动生成的事实问题以及这些问题的手动生成的答案，用于学术研究。

WikiQA 语料库：一组公开可用的问题和句子对，为开放域问答研究而收集和注释。为了反映一般用户的真实信息需求，他们使用Bing查询日志作为问题来源。每个问题都链接到可能有答案的维基百科页面。

雅虎语言数据：此页面包含来自雅虎雅虎问答的手动策划的 QA 数据集。

TREC QA Collection：TREC 自 1999 年以来就有了问答轨道。在每个轨道中，任务都被定义为系统要检索包含开放域、封闭类问题答案的小文本片段。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。