文本匹配数据集（支持语义搜索训练），超丰富语料

汀、人工智能

已于 2023-10-16 14:45:24 修改

阅读量585

点赞数 4

分类专栏：数据合集文章标签：搜索引擎语义搜索文本匹配问答系统自然语言处理数据集

于 2023-10-16 14:44:58 首次发布

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/133858266

版权

数据合集专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据集

数据集名称	领域	数量	任务类型	Prompt	质量	数据提供者	说明	是否开源/研究使用	是否商用	脚本	Done	URL	是否同质
cmrc2018	百科	14,363	问答	问答	优	Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu	https://github.com/ymcui/cmrc2018/blob/master/README_CN.md 专家标注的基于维基百科的中文阅读理解数据集，将问题和上下文视为正例	是	否	是	是	https://huggingface.co/datasets/cmrc2018	否
belle_0.5m	百科	500,000	指令微调	无	优	LianjiaTech/BELLE	belle 的指令微调数据集，使用 self instruct 方法基于 gpt3.5 生成	是	否	是	是	https://huggingface.co/datasets/BelleGroup/	否
firefily	百科	1,649,399	指令微调	无	优	YeungNLP	Firefly（流萤）是一个开源的中文对话式大语言模型，使用指令微调（Instruction Tuning）在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术，有效降低显存消耗和提高训练效率。在训练中，我们使用了更小的模型参数量，以及更少的计算资源。	未说明	未说明	是	是	https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M	否
alpaca_gpt4	百科	48,818	指令微调	无	优	Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao	本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据，约5万条。	是	否	是	是	https://huggingface.co/datasets/shibing624/alpaca-zh	否
zhihu_kol	百科	1,006,218	问答	问答	优	wangrui6	知乎问答	未说明	未说明	是	是	https://huggingface.co/datasets/wangrui6/Zhihu-KOL	否
amazon_reviews_multi	电商	210,000	问答文本分类	摘要	优	亚马逊	亚马逊产品评论数据集	是	否	是	是	https://huggingface.co/datasets/amazon_reviews_multi/viewer/zh/train?row=8	否
mlqa	百科	85,853	问答	问答	良	patrickvonplaten	一个用于评估跨语言问答性能的基准数据集	是	未说明	是	是	https://huggingface.co/datasets/mlqa/viewer/mlqa-translate-train.zh/train?p=2	否
xlsum	新闻	93,404	摘要	摘要	良	BUET CSE NLP Group	BBC的专业注释文章摘要对	是	否	是	是	https://huggingface.co/datasets/csebuetnlp/xlsum/viewer/chinese_simplified/train?row=259	否
ocnli	口语	17,726	自然语言推理	推理	良	Thomas Wolf	自然语言推理数据集	是	否	是	是	https://huggingface.co/datasets/clue/viewer/ocnli	是
BQ	金融	60,000	文本分类	相似	优	Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen)	http://icrc.hitsz.edu.cn/info/1037/1162.htm BQ 语料库包含来自网上银行自定义服务日志的 120，000 个问题对。它分为三部分：100，000 对用于训练，10，000 对用于验证，10，000 对用于测试。数据提供者：哈尔滨工业大学（深圳）智能计算研究中心	是	否	是	是	https://huggingface.co/datasets/shibing624/nli_zh/viewer/BQ	是
lcqmc	口语	149,226	文本分类	相似	优	Ming Xu	哈工大文本匹配数据集，LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同	是	否	是	是	https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train	是
paws-x	百科	23,576	文本分类	相似	优	Bhavitvya Malik	PAWS Wiki中的示例	是	是	是	是	https://huggingface.co/datasets/paws-x/viewer/zh/train	是
wiki_atomic_edit	百科	1,213,780	平行语义	相似	优	abhishek thakur	基于中文维基百科的编辑记录收集的数据集	未说明	未说明	是	是	https://huggingface.co/datasets/wiki_atomic_edits	是
chatmed_consult	医药	549,326	问答	问答	优	Wei Zhu	真实世界的医学相关的问题，使用 gpt3.5 进行回答	是	否	是	是	https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset	否
webqa	百科	42,216	问答	问答	优	suolyer	百度于2016年开源的数据集，数据来自于百度知道；格式为一个问题多篇意思基本一致的文章，分为人为标注以及浏览器检索；数据整体质量中，因为混合了很多检索而来的文章	是	未说明	是	是	https://huggingface.co/datasets/suolyer/webqa/viewer/suolyer–webqa/train?p=3	否
dureader_robust	百科	65,937	机器阅读理解问答	问答	优	百度	DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性，评测模型的过敏感性、过稳定性以及泛化能力，是首个中文阅读理解鲁棒性数据集。	是	是	是	是	https://huggingface.co/datasets/PaddlePaddle/dureader_robust/viewer/plain_text/train?row=96	否
csl	学术	395,927	语料	摘要	优	Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang	提供首个中文科学文献数据集（CSL），包含 396,209 篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）。CSL 数据集可以作为预训练语料，也可以构建许多NLP任务，例如文本摘要（标题预测）、关键词生成和文本分类等。	是	是	是	是	https://huggingface.co/datasets/neuclir/csl	否
snli-zh	口语	419,402	文本分类	推理	优	liuhuanyong	中文SNLI数据集，翻译自英文SNLI	是	否	是	是	https://github.com/liuhuanyong/ChineseTextualInference/	是
SimCLUE	百科	2,678,694	平行语义	相似	优	数据集合，请在 simCLUE 中查看	整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集，并重新做了数据拆分和整理。	是	否	否	是	https://github.com/CLUEbenchmark/SimCLUE	是

如果您想要查看数据集的构建方法，你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成 nli-zh-all 数据集的脚本，所有数据均上传到 huggingface datasets。