Dataset
垂域数据集
240万条中文医疗数据集(包括预训练、指令微调和奖励数据集):shibing624/medical
22万条中文医疗对话数据集(华佗项目):shibing624/huatuo_medical_qa_sharegpt
通用数据集
Pretraining datasets
16GB中英文无监督、平行语料Linly-AI/Chinese-pretraining-dataset
524MB中文维基百科语料wikipedia-cn-20230720-filtered
SFT datasets
10万条多语言ShareGPT GPT4多轮对话数据集:shibing624/sharegpt_gpt4
9万条英文ShareGPT多轮对话数集:anon8231489123/ShareGPT_Vicuna_unfiltered
50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN
100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN
5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset
2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh
69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0
5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K
80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M
116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data
3.8万条中文ShareGPT多轮对话数据集:FreedomIntelligence/ShareGPT-CN
Reward Model datasets
原版的oasst1数据集:OpenAssistant/oasst1
2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward
11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf
9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset):Dahoas/static-hh
7万条英文reward数据集(来源同上):Dahoas/rm-static
7万条繁体中文的reward数据集(翻译自rm-static)liswei/rm-static-m2m100-zh
7万条英文Reward数据集:yitingxie/rlhf-reward-datasets
3千条中文知乎问答偏好数据集:liyucheng/zhihu_rlhf_3k
中文指令集
大多数从Alpaca翻译而来。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。
- [1]:/LC1332/Chinese-alpaca-lora
- [2]:/hikariming/chat-dataset-baseline
- [3]:/alpaca-chinese-dataset
- [4]:/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- [5]:/LianjiaTech/BELLE
- [6]:/JosephusCheung/GuanacoDataset
开源模型
中文开源模型
直接可微调,无需指令增量训练:
原始模型多语言or英文模型
需要中文指令数据集增量训练:
参考:MedicalGPT 训练医疗大模型,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)_medicalgpt做增量预训练-CSDN博客