传神社区|数据集合集第4期|中文NLP数据集合集

OpenCSG

于 2024-06-28 16:06:55 发布

阅读量1k

点赞数 12

文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/OpenCSG/article/details/140046040

版权

自从ChatGPT等大型语言模型（Large Language Model, LLM）出现以来，其类通用人工智能（AGI）能力引发了自然语言处理（NLP）领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后，业界涌现了大量基于LLM的二次微调和应用案例。

传神社区（Opencsg）旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个！如果本篇文章对您有帮助，欢迎点赞与收藏～

我们也欢迎大家贡献本文未收录的开源数据集，提供对应的资源，描述与链接，感谢您的支持！

1. 文本分类

- - 1.1 初等数学应用问题 (MWP) 的挑战集
  - 1.2 多元化数学应用题
  - 1.3 数学单词问题数据集
  - 1.4 中文生物医学文本
  - 1.5 中文谣言数据
    
    1.6 新闻语料库
  - 1.7 百度知道问答语料库
2.词库及词法工具
- - 2.1 textfilter词库
  - 2.2 人名抽取功能词法工具
  - 2.3 中文缩写库数据集
  - 2.4 汉语拆字词典数据集
  - 2.5 词汇情感值数据集
  - 2.6 中文词库、停用词、敏感词数据集
  - 2.7 汉字拼音转换工具
  - 2.8 中文繁简体互转数据集

01 文本分析

1.1 初等数学应用问题 (MWP) 的挑战集

SVAMP:

简介：初等数学应用问题 (MWP) 的挑战集。MWP 由一个简短的自然语言叙述组成，它描述了世界的一种状态，并提出了一个关于一些未知量的问题。SVAMP 中的示例在解决 MWP 的不同方面测试模型：1) 模型问题是否敏感？2）模型是否具有鲁棒的推理能力？3）结构变化是否不变？

地址：https://opencsg.com/datasets/OpenDataLab/SVAMP

1.2 多元化数学应用题

DMath：

简介：DMath（多元化数学应用题），这是论文“ It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset ”的 10K 高质量小学水平数学应用题的集合。

地址:https://opencsg.com/datasets/OpenDataLab/DMath

1.3 数学单词问题数据集

Ape210K：

简介：Ape210K是一个新的大规模和模板丰富的数学单词问题数据集，包含 210K 个中国小学水平的数学问题，是最大的公共数据集 Math23K 的 9 倍。每个问题都包含黄金答案和得出答案所需的方程式。Ape210K 也具有更大的多样性，有 56K 个模板，是 Math23K 的 25 倍。我们的分析表明，解决 Ape210K 不仅需要自然语言理解，还需要常识知识。

地址:https://opencsg.com/datasets/OpenDataLab/Ape210K

1.4 中文生物医学文本

ChineseBlue：

简介：ChinesseBLUE基准测试由不同的生物医学文本挖掘任务组成。这些任务涵盖了不同的文本类型(生物医学网络数据和临床记录)、数据集大小和难度级别，更重要的是，突出了常见的生物医学文本挖掘挑战。

地址:https://opencsg.com/datasets/billionaire/ChineseBlue

1.5 中文谣言数据

Chinese_Rumor_Dataset：

简介：第一部分数据集（./rumors_v170613.json）共包含从2009年9月4日至2017年6月12日的31669条谣言。

地址:https://opencsg.com/datasets/MagicAI/Chinese_Rumor_Dataset

1.6 新闻语料库

PeoplesDaily：

简介：1946年-2003年人民日报新闻语料库。

地址:https://opencsg.com/datasets/crazyqq/PeoplesDaily

1.7 百度知道问答语料库

MiningZhiDaoQACorpus：

简介：580万百度知道问答数据挖掘项目，百度知道问答语料库，包括超过580万的问题，每个问题带有问题标签。基于该问答语料库，可支持多种应用，如逻辑挖掘。

地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus

2.词库及词法工具

2.1 textfilter词库

textfilter：

简介：敏感词过滤的几种实现+某1w词敏感词库

地址：https://opencsg.com/datasets/MagicAI/textfilter

2.2 人名抽取功能词法工具

cocoNLP：

简介：这是一个中文自然语言处理（NLP）包，可以从文本中提取信息。

地址：https://opencsg.com/datasets/MagicAI/cocoNLP

2.3 中文缩写库数据集

Chinese-abbreviation-dataset:

简介：这是论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》发布的数据集。

地址：https://opencsg.com/datasets/MagicAI/Chinese-abbreviation-dataset

2.4 汉语拆字词典数据集

chaizi：

简介：膂 | 旅肉 | 旅月鋓 | 金利 | 釒利迴 | 辵回 | 辶回証 | 言正 | 訁正

目前一字最多可以有六（6）種拆法，例如：

漢字	拆法 (一)	拆法 (二)	拆法 (三)	拆法 (四)	拆法 (五)	拆法 (六)
絕	絲刀巴	糹刀巴	糸刀巴	絲色	糹色	糸色
拼	手并	扌并	才并	手幷	扌幷	才幷
鋶	金亠厶川	釒亠厶川	金巟	釒巟	金㐬	釒㐬

地址：https://opencsg.com/datasets/MagicAI/chaizi

2.5 词汇情感值数据集

SentiBridge：

简介：本词典包含：实体/属性—情感词。例如：“长城宏伟”、“性价比高”、“价格高”。主要目的是刻画人们是怎么描述某个实体的，例如大家通常用宏伟来形容长城。

目前词典包含三个领域语料的抽取结果：新闻、旅游、餐饮，共计30万对。

地址：https://opencsg.com/datasets/MagicAI/SentiBridge

2.6 中文词库、停用词、敏感词数据集

Chinese_from_dongxiexidian：

简介：包含素材：Files --

分词词典: 综合了百度、搜狗等词库，以及手动整理的若干人名和新近出现的热词

中文停用词: 综合了"百度停用词表"，"哈工大停用词表"，"四川大学机器学习实验室停用词表"等若干停用词表，取交集并去除了不需要的标点符号和英文单词

地址：https://opencsg.com/datasets/MagicAI/Chinese_from_dongxiexidian

2.7 汉字拼音转换工具

python-pinyin：

简介：将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation_) 。

最初版本的代码参考了 hotoo/pinyin <https://github.com/hotoo/pinyin>__ 的实现。

Documentation: https://pypinyin.readthedocs.io/
GitHub: https://github.com/mozillazg/python-pinyin
License: MIT license
PyPI: https://pypi.org/project/pypinyin
Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.12

地址：https://opencsg.com/datasets/MagicAI/python-pinyin