开源数据集和开源模型个人记录

Dataset

垂域数据集

240万条中文医疗数据集(包括预训练、指令微调和奖励数据集):shibing624/medical
22万条中文医疗对话数据集(华佗项目):shibing624/huatuo_medical_qa_sharegpt 

通用数据集

Pretraining datasets

16GB中英文无监督、平行语料Linly-AI/Chinese-pretraining-dataset
524MB中文维基百科语料wikipedia-cn-20230720-filtered

SFT datasets

10万条多语言ShareGPT GPT4多轮对话数据集:shibing624/sharegpt_gpt4
9万条英文ShareGPT多轮对话数集:anon8231489123/ShareGPT_Vicuna_unfiltered
50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN
100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN
5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset
2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh
69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0
5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K
80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M
116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data
3.8万条中文ShareGPT多轮对话数据集:FreedomIntelligence/ShareGPT-CN

Reward Model datasets

原版的oasst1数据集:OpenAssistant/oasst1
2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward
11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf
9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset):Dahoas/static-hh
7万条英文reward数据集(来源同上):Dahoas/rm-static
7万条繁体中文的reward数据集(翻译自rm-static)liswei/rm-static-m2m100-zh
7万条英文Reward数据集:yitingxie/rlhf-reward-datasets
3千条中文知乎问答偏好数据集:liyucheng/zhihu_rlhf_3k

中文指令集

大多数从Alpaca翻译而来。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。

开源模型

中文开源模型

直接可微调,无需指令增量训练:

原始模型多语言or英文模型

需要中文指令数据集增量训练:

参考:MedicalGPT 训练医疗大模型,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)_medicalgpt做增量预训练-CSDN博客

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值