文本匹配数据集(支持语义搜索训练),超丰富语料

数据集

数据集名称领域数量任务类型Prompt质量数据提供者说明是否开源/研究使用是否商用脚本DoneURL是否同质
cmrc2018百科14,363问答问答Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Huhttps://github.com/ymcui/cmrc2018/blob/master/README_CN.md 专家标注的基于维基百科的中文阅读理解数据集,将问题和上下文视为正例https://huggingface.co/datasets/cmrc2018
belle_0.5m百科500,000指令微调LianjiaTech/BELLEbelle 的指令微调数据集,使用 self instruct 方法基于 gpt3.5 生成https://huggingface.co/datasets/BelleGroup/
firefily百科1,649,399指令微调YeungNLPFirefly(流萤) 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术,有效降低显存消耗和提高训练效率。 在训练中,我们使用了更小的模型参数量,以及更少的计算资源。未说明未说明https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
alpaca_gpt4百科48,818指令微调Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条。https://huggingface.co/datasets/shibing624/alpaca-zh
zhihu_kol百科1,006,218问答问答wangrui6知乎问答未说明未说明https://huggingface.co/datasets/wangrui6/Zhihu-KOL
amazon_reviews_multi电商210,000问答 文本分类摘要亚马逊亚马逊产品评论数据集https://huggingface.co/datasets/amazon_reviews_multi/viewer/zh/train?row=8
mlqa百科85,853问答问答patrickvonplaten一个用于评估跨语言问答性能的基准数据集未说明https://huggingface.co/datasets/mlqa/viewer/mlqa-translate-train.zh/train?p=2
xlsum新闻93,404摘要摘要BUET CSE NLP GroupBBC的专业注释文章摘要对https://huggingface.co/datasets/csebuetnlp/xlsum/viewer/chinese_simplified/train?row=259
ocnli口语17,726自然语言推理推理Thomas Wolf自然语言推理数据集https://huggingface.co/datasets/clue/viewer/ocnli
BQ金融60,000文本分类相似Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen)http://icrc.hitsz.edu.cn/info/1037/1162.htm BQ 语料库包含来自网上银行自定义服务日志的 120,000 个问题对。它分为三部分:100,000 对用于训练,10,000 对用于验证,10,000 对用于测试。 数据提供者: 哈尔滨工业大学(深圳)智能计算研究中心https://huggingface.co/datasets/shibing624/nli_zh/viewer/BQ
lcqmc口语149,226文本分类相似Ming Xu哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train
paws-x百科23,576文本分类相似Bhavitvya MalikPAWS Wiki中的示例https://huggingface.co/datasets/paws-x/viewer/zh/train
wiki_atomic_edit百科1,213,780平行语义相似abhishek thakur基于中文维基百科的编辑记录收集的数据集未说明未说明https://huggingface.co/datasets/wiki_atomic_edits
chatmed_consult医药549,326问答问答Wei Zhu真实世界的医学相关的问题,使用 gpt3.5 进行回答https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset
webqa百科42,216问答问答suolyer百度于2016年开源的数据集,数据来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索;数据整体质量中,因为混合了很多检索而来的文章未说明https://huggingface.co/datasets/suolyer/webqa/viewer/suolyer–webqa/train?p=3
dureader_robust百科65,937机器阅读理解 问答问答百度DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性,评测模型的过敏感性、过稳定性以及泛化能力,是首个中文阅读理解鲁棒性数据集。https://huggingface.co/datasets/PaddlePaddle/dureader_robust/viewer/plain_text/train?row=96
csl学术395,927语料摘要Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang提供首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。https://huggingface.co/datasets/neuclir/csl
snli-zh口语419,402文本分类推理liuhuanyong中文SNLI数据集,翻译自英文SNLIhttps://github.com/liuhuanyong/ChineseTextualInference/
SimCLUE百科2,678,694平行语义相似数据集合,请在 simCLUE 中查看整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。https://github.com/CLUEbenchmark/SimCLUE

如果您想要查看数据集的构建方法,你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成 nli-zh-all 数据集的脚本,所有数据均上传到 huggingface datasets。

references

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: LCQMC(Large-scale Chinese Question Matching Corpus)是一个用于中文问题匹配的大规模语料库。它由华为诺亚方舟实验室构建并于2018年发布。LCQMC主要用于句子级别的语义匹配任务,旨在对两个中文问句进行匹配程度的判断。 LCQMC语料库包含50万对句子对,共有大约23万问题对。这些问题之间包含了一定程度的相似性,覆盖了多个领域、多种表达方式和多种语义关系。其中,约70%的问题对是语义等价的,约20%的问题对是不等效的,其余的是不确定性问题对。 该数据集的构建过程通过人工标注实现,标注人员根据句子间的语义相似性对问题进行分类。这些标注过的句子对可用于训练和评估中文句子匹配任务的模型,如文本相似度计算、信息检索等。 LCQMC数据集自然语言处理领域广泛应用,尤其在中文语义匹配任务中被广泛使用。它为研究者提供了一个用于检验和改进中文问句匹配模型性能的基准,也为模型开发者提供了一个用于训练和优化中文句子匹配模型的实验数据集。 总的来说,LCQMC数据集是一个规模较大、用于中文句子匹配任务的语料库,它为中文语义匹配模型的研究和开发提供了有价值的资源。 ### 回答2: LCQMC数据集是中文自然语言处理任务中常用的数据集之一,全称为Large-scale Chinese Question Matching Corpus。它是由华东师范大学自然语言处理与应用国家级实验室创建和发布的。该数据集主要用于问答匹配任务,目的是为了判断给定的两个句子是否表示相同的语义含义。 LCQMC数据集由一万对中文句子组成,每对句子都有一个标签,标记句子是否具有相同的语义数据集中的句子选自真实场景,如新闻、微博等,具有一定的多样性和复杂性。数据集中的句子包含了不同的主题,并且用词丰富多样。这使得LCQMC数据集能够有效地反映出真实世界中的语义相似性问题。 使用LCQMC数据集可以进行问答匹配自然语言处理任务的建模和评估。研究者可以根据该数据集训练模型,通过对比模型预测的标签和真实标签的差异来评估模型的性能。此外,LCQMC数据集还可以用于探索文本相似度的计算方法,研究句子表征学习、文本匹配语义相似度计算等问题。 总之,LCQMC数据集是一个用于问答匹配任务的中文语料库,可以用于训练和评估自然语言处理模型,研究文本相似度计算等问题。 ### 回答3: LCQMC(Large-scale Chinese Question Matching Corpus)数据集是一个用于中文文本匹配任务的大规模数据集。它是为了促进中文语义相似度匹配研究而创建的。这个数据集由清华大学自然语言处理与社会人文计算实验室发布,包含大约240,000对问题和答案配对。这些配对是从搜索引擎的查询日志、社交媒体和常见的中文问答平台中抽取而成。 LCQMC数据集的目的是为了帮助研究人员开发和评估中文问答和语义相似度相关的算法和模型。它的问题配对主要由人工标注,具有高质量的标签。这使得研究人员可以使用这个数据集来进行问题相似度匹配语义推理、问答系统等任务的训练和评估。 作为一个常用的中文文本匹配数据集,LCQMC数据集已经在许多自然语言处理任务中得到了广泛应用。研究人员可以利用这个数据集开展文本相似度计算、问题回答、问答对生成等任务的研究。同时,这个数据集也为中文语义相似度模型的评估提供了一个基准。 总而言之,LCQMC数据集提供了大量的中文问题和答案配对,为中文文本匹配研究提供了重要的资源。它在促进中文自然语言处理领域的发展和创新方面起到了重要的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀、人工智能

十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值