传神社区|数据集合集第1期|中文NLP数据集合集

OpenCSG

于 2024-05-21 12:54:10 发布

阅读量762

点赞数 26

文章标签：人工智能大模型应用

本文链接：https://blog.csdn.net/OpenCSG/article/details/139089664

版权

自从ChatGPT等大型语言模型（Large Language Model, LLM）出现以来，其类通用人工智能（AGI）能力引发了自然语言处理（NLP）领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后，业界涌现了大量基于LLM的二次微调和应用案例。

传神社区（Opencsg）旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个！如果本篇文章对您有帮助，欢迎点赞与收藏～

我们也欢迎大家贡献本文未收录的开源数据集，提供对应的资源，描述与链接，感谢您的支持！

1. 语料库

- - 1.1 人名语料库数据集
  - 1.2 Chinese-Word-Vectors数据集
  - 1.3 中文聊天语料数据集
  - 1.4 中文谣言数据数据集
  - 1.5 中文自然语言处理语料、数据集
  - 1.6 中文ULMFiT数据集
  - 1.7 维基百科json版(wiki2019zh)数据集
  - 1.8 新闻语料json版(news2016zh)数据集
  - 1.9 百科类问答json版(baike2018qa)数据集
  - 1.10 社区问答json版(webtext2019zh) ：大规模高质量数据集
  - 1.11 翻译语料(translation2019zh)数据集
2.词库及词法工具
- - 2.1 textfilter词库
  - 2.2 人名抽取功能词法工具
  - 2.3 中文缩写库数据集
  - 2.4 汉语拆字词典数据集
  - 2.5 词汇情感值数据集
  - 2.6 中文词库、停用词、敏感词数据集
  - 2.7 汉字拼音转换工具
  - 2.8 中文繁简体互转数据集

01 语料库

1.1 人名语料库数据集

Chinese-Names-Corpus:

地址：https://opencsg.com/datasets/MagicAI/Chinese-Names-Corpus

简介：中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。

1.2 Chinese-Word-Vectors数据集

Chinese-Word-Vectors：

地址:https://opencsg.com/datasets/MagicAI/Chinese-Word-Vectors

简介：本项目提供超过100种中文词向量，其中包括不同的表示方式（稠密和稀疏）、不同的上下文特征（词、N元组、字等等）、以及不同的训练语料。获取预训练词向量非常方便，下载后即可用于下游任务。此外，我们还提供了中文词类比任务数据集CA8和配套的评测工具，以便对中文词向量进行评估。

1.3 中文聊天语料数据集

chinese-chatbot-corpus：

地址：https://opencsg.com/datasets/MagicAI/chinese-chatbot-corpus

简介：该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料青云语料电视剧对白语料贴吧论坛回帖语料微博语料小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。

1.4 中文谣言数据数据集

Chinese_Rumor_Dataset：

地址：https://opencsg.com/datasets/MagicAI/Chinese_Rumor_Dataset

简介：该数据为从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。其中当前目录下的数据集仅包含谣言原微博，不包含转发/评论信息；而CED_Dataset中是包含转发/评论信息的中文谣言数据集。

1.5 中文自然语言处理语料、数据集

ChineseNlpCorpus：

地址：https://opencsg.com/datasets/MagicAI/ChineseNlpCorpus

简介：搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处理的发展。

1.6 中文ULMFiT数据集

chinese_ulmfit：

地址：https://opencsg.com/datasets/MagicAI/chinese_ulmfit

简介：创建虚拟环境，解压中文维基百科语料，分词维基百科语料，分词领域语料等等。