传神社区|数据集合集第3期|中文NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个!如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

 1. 智能问答

      • 1.1 用于中文闲聊的GPT2模型GPT2-chitchat

      • 1.2 百度知道问答语料库

      • 1.3 端到端的封闭域对话系统

      • 1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人

      • 1.5 基于最新版本rasa搭建的对话系统

      • 1.6 ConvLab开源多域端到端对话系统平台

      • 1.7 qa对的机器人

      • 1.8 中文聊天机器人

  • 2.文本纠错

      • 2.1 中文文本纠错模块代码

      • 2.2 python拼写检查库

      • 2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集

      • 2.4 BertPunc基于BERT的最先进标点修复模型

      • 2.5 文本纠错文献列表

    • 3.文本匹配

      3.1 句子、QA相似度匹配MatchZoo

    • 3.2 中文问题句子相似度计算比赛及方案汇总

01 智能问答

1.1 用于中文闲聊的GPT2模型GPT2-chitchat

GPT2-chitchat:

地址:https://opencsg.com/datasets/MagicAI/GPT2-chitchat

简介:用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)。

图片

1.2 百度知道问答语料库

MiningZhiDaoQACorpus:

地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus

简介:580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘

图片

1.3 端到端的封闭域对话系统

cdQA:

地址:https://opencsg.com/datasets/MagicAI/cdQA

简介:一个端到端的封闭领域问答系统。

图片

1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人

Chatbot_CN:

地址:https://opencsg.com/datasets/MagicAI/Chatbot_CN

简介:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取、NLU、NLG、知识图谱等,并且利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口。

图片

1.5 基于最新版本rasa搭建的对话系统

awesome-knowledge-graph:

地址:https://opencsg.com/datasets/MagicAI/rasa_chatbot_cn

简介:基于最新版本rasa搭建的对话系统

图片

1.6  ConvLab开源多域端到端对话系统平台

ConvLab:

地址:https://opencsg.com/datasets/MagicAI/ConvLab

简介:DSTC8 Track 1 Task 1 端到端多领域对话挑战赛结果 。

图片

1.7 qa对的机器人

QAmodel-for-Retrievalchatbot:

地址:https://opencsg.com/datasets/MagicAI/QAmodel-for-Retrievalchatbot

简介:客服机器人,Chinese Retreival chatbot(中文检索式机器人)用到的一些QA模型,基于tf-idf,lsa,cnn,transformer,bert等。

图片

1.8 中文聊天机器人

Chinese-Chatbot-PyTorch-Implementation:

地址:https://opencsg.com/datasets/MagicAI/Chinese-Chatbot-PyTorch-Implementation

简介:根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景。

图片

2.文本纠错

2.1 中文文本纠错模块代码

Error-Detection:

简介:使用n-gram和Bi-LSTM(双向长短期记忆网络)构建中文错误检测模块

地址:https://opencsg.com/datasets/MagicAI/Error-Detection

2.2 python拼写检查库

pyspellchecker:

简介:使用纯Python进行拼写检查。

地址:https://opencsg.com/datasets/MagicAI/pyspellchecker

图片

2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集

github-typo-corpus:

简介:GitHub Typo Corpus: 大规模多语言拼写错误和语法错误数据集。这是一个用于研究和改进拼写错误和语法错误检测的多语言大规模数据集。

地址:https://opencsg.com/datasets/MagicAI/github-typo-corpus

图片

2.4 BertPunc基于BERT的最先进标点修复模型

BertPunc:

简介:基于BERT预训练模型的最新(SOTA)标点恢复(例如自动语音识别)的深度学习模型。

地址:https://opencsg.com/datasets/MagicAI/BertPunc

图片

2.5 文本纠错文献列表

Chinese-text-correction-papers:

简介:中文文献纠错

地址:https://opencsg.com/datasets/MagicAI/Chinese-text-correction-papers

图片

03 文本纠错

3.1 句子、QA相似度匹配MatchZoo

MatchZoo:

地址:https://opencsg.com/datasets/MagicAI/MatchZoo

简介:文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。

图片

3.2 中文问题句子相似度计算比赛及方案汇总

Chinese-sentence-similarity-task:

地址:https://opencsg.com/datasets/MagicAI/Chinese-sentence-similarity-task

简介:中文问题句子相似度计算比赛及方案汇总。

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值