中文大模型数据集

中文端到端数据集

CATSLU

2、完成融合coig以及catslu数据的指令微调,在catslu测试数据集上效果验证domain acc=0.646,

中文指令数据集

BELLE

贝壳发布了多个指令数据集,包括多轮对话、数学题、角色对话等指令数据。
350万条多轮对话数据:BelleGroup/train_3.5M_CN · Datasets at Hugging Face
80万条多轮对话数据: BelleGroup/multiturn_chat_0.8M · Datasets at Hugging Face
25万条中文数学题:BelleGroup/school_math_0.25M · Datasets at Hugging Face
40万条角色对话数据:BelleGroup/generated_chat_0.4M · Datasets at Hugging Face
200万条中文指令数据: BelleGroup/train_2M_CN · Datasets at Hugging Face
100万条中文指令数据: BelleGroup/train_1M_CN · Datasets at Hugging Face
50万条中文指令数据: BelleGroup/train_0.5M_CN · Datasets at Hugging Face

COIG

由北京智源研究院等机构发布。其特点是数据类型非常丰富、数据量非常大。
17万条中文指令数据COIG:BAAI/COIG · Datasets at Hugging Face
238GB大小的指令数据COIG-PC:BAAI/COIG-PC · Datasets at Hugging Face
COIG-PC-Lite是COIG-PC的子集,每个任务只包含200条数据: BAAI/COIG-PC-Lite · Datasets at
Hugging Face

Firefly

115万条指令数据,包含23个类别。数据长度也几乎在400以内。
huggingface 链接:YeungNLP/firefly-train-1.1M · Datasets at Hugging Face

MOSS

110万中英文多轮对话数据 fnlp/moss-003-sft-data · Datasets at Hugging Face
安全性指令数据,指令是参考self-instruct的方式构建,回应是调用text-davinci-003生成的: fnlp/moss-002-sft-data · Datasets at Hugging Face

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值