史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!

有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集,总有适合你的那一款。

image

中文 NLP 数据集搜索https://www.cluebenchmarks.com/dataSet_search.html

在学习 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们会发现好用的公开大型语料真的很少。

我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目,再根据需求进行选择。值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦,这时候就需要我们自行判断与试错了。

不过在本文中,我们将介绍一项新的中文 NLP 数据搜索项目,它可能是目前最全的中文 NLP 数据集信息收集项目。该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。image

每一条搜索结果都会展示数据集的基本信息、访问链接等关键信息,能帮助我们快速筛选数据集。因为每一个领域都能找到非常多的同类数据集,因此这些简述非常有意义。image
如果读者想看看到底有哪些数据集,可以直接查看该搜索项目的 GitHub 地址,所有数据集的信息都在上面。

这可能是最全的中文 NLP 数据集合

本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址https://github.com/CLUEbenchmark/CLUEDatasetSearchimage

本项目中文 NLP 数据集分类。

情感分析

作为自然语言处理(NLP)的一种常见应用,情感分析特别适用于以提取文本情感内容为目的的分类方法中。本项目中介绍了 11 个情感分析数据集来源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯电商评论观点挖掘大赛以及 2019 搜狐校园算法大赛数据集。image

项目中部分情感分析中文数据集详情。*

文本分类

作为自然语言处理中最常用和最基础的应用,文本分类方面的数据集已经有很多。本项目中介绍了 19 个文本分类数据集来源,其中包括今日头条中文新闻(文本)分类、THUCNews 中文文本分类、2017 知乎看山杯机器学习挑战赛 以及中科大新闻分类语料库等。image
项目中部分文本分类数据集详情。

### 回答1: 聊天机器人ChatRobot提供了100万中文闲聊对话高质量语料数据集,这是一个很好的NLP开放域对话学习和训练的资源。该数据集经过了筛选和整理,包含了各种不同话题的对话,如天气、美食、电影、音乐等等,可以帮助机器人更好地理解人类语言和文化,并且能够更好地做出回答和互动。 这个数据集的质量很高,其中包括真实的人机对话、各种不同话题和场景的应答、表达真实情感和语气等等,使得机器人对人类语言和文化的理解更加深入和准确。同时,这个数据集可以用来训练机器人对话的模型,从而提高机器人的对话能力和准确性,让机器人更加智能、自然和亲切。 之,聊天机器人ChatRobot提供的100万中文闲聊对话高质量语料数据集是一个非常有用的资源,能够帮助开发者在NLP开放域对话方面,轻松快速地训练和改进机器人的对话能力,提供更好的用户体验和服务。 ### 回答2: 聊天机器人(Chatrobot)的出现极大地方便了人们的日常生活和工作。不仅在智能客服领域,其广泛应用于 科研、教育、医疗等领域。而中文闲聊数据集便是聊天机器人开发中不可或缺的重要资源。目前最大的数据集之一是Chatbot Dataset,其中就包含了100万中文闲聊对话的高质量语料数据。 这一数据集的发布,对于中文开放域对话学习训练提供了重要的资源支持。其所涵盖的范围非常广泛,包括了各种话题的对话,如电影、体育、新闻、事实问答等等。而所有对话都来自真实场景,语料数据的有效性和实用性都得到了充分验证。 这个数据集提供了许多有价值的资源,包括归一化言语数据、重复数据的排除、智能场景分类等。这些优化都进一步提高了机器人的应对能力和整体效率。同时,基于大量样本的机器学习或深度学习算法可以进一步进化,以实现最佳的交互体验。 聊天机器人数据的质量和范围对其应用范围和效果影响极大。Chatbot Dataset所提供的大量数据和先进的优化方法,为聊天机器人的开发和优化提供了难得的机会。因此,这个数据集对于提升聊天机器人的对话能力和延伸应用领域具有不可替代的作用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值