自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。
传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个!如果本篇文章对您有帮助,欢迎点赞与收藏~
我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!
目录
1. 智能问答
-
-
-
1.1 用于中文闲聊的GPT2模型GPT2-chitchat
-
1.2 百度知道问答语料库
-
1.3 端到端的封闭域对话系统
-
1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人
-
1.5 基于最新版本rasa搭建的对话系统
-
1.6 ConvLab开源多域端到端对话系统平台
-
1.7 qa对的机器人
-
1.8 中文聊天机器人
-
-
-
2.文本纠错
-
-
2.1 中文文本纠错模块代码
-
2.2 python拼写检查库
-
2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集
-
2.4 BertPunc基于BERT的最先进标点修复模型
-
2.5 文本纠错文献列表
-
-
3.文本匹配
3.1 句子、QA相似度匹配MatchZoo
-
3.2 中文问题句子相似度计算比赛及方案汇总
-
01 智能问答
1.1 用于中文闲聊的GPT2模型GPT2-chitchat
GPT2-chitchat:
地址:https://opencsg.com/datasets/MagicAI/GPT2-chitchat
简介:用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)。
1.2 百度知道问答语料库
MiningZhiDaoQACorpus:
地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus
简介:580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘
1.3 端到端的封闭域对话系统
cdQA:
地址:https://opencsg.com/datasets/MagicAI/cdQA
简介:一个端到端的封闭领域问答系统。
1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人
Chatbot_CN:
地址:https://opencsg.com/datasets/MagicAI/Chatbot_CN
简介:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取、NLU、NLG、知识图谱等,并且利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口。
1.5 基于最新版本rasa搭建的对话系统
awesome-knowledge-graph:
地址:https://opencsg.com/datasets/MagicAI/rasa_chatbot_cn
简介:基于最新版本rasa搭建的对话系统
1.6 ConvLab开源多域端到端对话系统平台
ConvLab:
地址:https://opencsg.com/datasets/MagicAI/ConvLab
简介:DSTC8 Track 1 Task 1 端到端多领域对话挑战赛结果 。
1.7 qa对的机器人
QAmodel-for-Retrievalchatbot:
地址:https://opencsg.com/datasets/MagicAI/QAmodel-for-Retrievalchatbot
简介:客服机器人,Chinese Retreival chatbot(中文检索式机器人)用到的一些QA模型,基于tf-idf,lsa,cnn,transformer,bert等。
1.8 中文聊天机器人
Chinese-Chatbot-PyTorch-Implementation:
地址:https://opencsg.com/datasets/MagicAI/Chinese-Chatbot-PyTorch-Implementation
简介:根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景。
2.文本纠错
2.1 中文文本纠错模块代码
Error-Detection:
简介:使用n-gram和Bi-LSTM(双向长短期记忆网络)构建中文错误检测模块
地址:https://opencsg.com/datasets/MagicAI/Error-Detection
2.2 python拼写检查库
pyspellchecker:
简介:使用纯Python进行拼写检查。
地址:https://opencsg.com/datasets/MagicAI/pyspellchecker
2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集
github-typo-corpus:
简介:GitHub Typo Corpus: 大规模多语言拼写错误和语法错误数据集。这是一个用于研究和改进拼写错误和语法错误检测的多语言大规模数据集。
地址:https://opencsg.com/datasets/MagicAI/github-typo-corpus
2.4 BertPunc基于BERT的最先进标点修复模型
BertPunc:
简介:基于BERT预训练模型的最新(SOTA)标点恢复(例如自动语音识别)的深度学习模型。
地址:https://opencsg.com/datasets/MagicAI/BertPunc
2.5 文本纠错文献列表
Chinese-text-correction-papers:
简介:中文文献纠错
地址:https://opencsg.com/datasets/MagicAI/Chinese-text-correction-papers
03 文本纠错
3.1 句子、QA相似度匹配MatchZoo
MatchZoo:
地址:https://opencsg.com/datasets/MagicAI/MatchZoo
简介:文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。
3.2 中文问题句子相似度计算比赛及方案汇总
Chinese-sentence-similarity-task:
地址:https://opencsg.com/datasets/MagicAI/Chinese-sentence-similarity-task
简介:中文问题句子相似度计算比赛及方案汇总。
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/opencsg
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区