开源数据集和开源模型个人记录

小趴菜日记

已于 2024-05-17 23:14:54 修改

阅读量485

点赞数 22

文章标签：人工智能机器学习深度学习

于 2024-05-12 16:55:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55736201/article/details/138757305

版权

Dataset

垂域数据集

240万条中文医疗数据集(包括预训练、指令微调和奖励数据集)：shibing624/medical
22万条中文医疗对话数据集(华佗项目)：shibing624/huatuo_medical_qa_sharegpt

通用数据集

Pretraining datasets

16GB中英文无监督、平行语料Linly-AI/Chinese-pretraining-dataset
524MB中文维基百科语料wikipedia-cn-20230720-filtered

SFT datasets

10万条多语言ShareGPT GPT4多轮对话数据集：shibing624/sharegpt_gpt4
9万条英文ShareGPT多轮对话数集：anon8231489123/ShareGPT_Vicuna_unfiltered
50万条中文ChatGPT指令Belle数据集：BelleGroup/train_0.5M_CN
100万条中文ChatGPT指令Belle数据集：BelleGroup/train_1M_CN
5万条英文ChatGPT指令Alpaca数据集：50k English Stanford Alpaca dataset
2万条中文ChatGPT指令Alpaca数据集：shibing624/alpaca-zh
69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条)：Chinese-Vicuna/guanaco_belle_merge_v1.0
5万条英文ChatGPT多轮对话数据集：RyokoAI/ShareGPT52K
80万条中文ChatGPT多轮对话数据集：BelleGroup/multiturn_chat_0.8M
116万条中文ChatGPT多轮对话数据集：fnlp/moss-002-sft-data
3.8万条中文ShareGPT多轮对话数据集：FreedomIntelligence/ShareGPT-CN

Reward Model datasets

原版的oasst1数据集：OpenAssistant/oasst1
2万条多语言oasst1的reward数据集：tasksource/oasst1_pairwise_rlhf_reward
11万条英文hh-rlhf的reward数据集：Dahoas/full-hh-rlhf
9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset)：Dahoas/static-hh
7万条英文reward数据集（来源同上）：Dahoas/rm-static
7万条繁体中文的reward数据集（翻译自rm-static）liswei/rm-static-m2m100-zh
7万条英文Reward数据集：yitingxie/rlhf-reward-datasets
3千条中文知乎问答偏好数据集：liyucheng/zhihu_rlhf_3k

中文指令集

大多数从Alpaca翻译而来。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。

[1]：/LC1332/Chinese-alpaca-lora
[2]：/hikariming/chat-dataset-baseline
[3]：/alpaca-chinese-dataset
[4]：/Instruction-Tuning-with-GPT-4/GPT-4-LLM
[5]：/LianjiaTech/BELLE
[6]：/JosephusCheung/GuanacoDataset

开源模型

中文开源模型

直接可微调，无需指令增量训练：

ChatGLM-6B：模型地址
ChatYuan-large-v2：模型地址

原始模型多语言or英文模型

需要中文指令数据集增量训练：

BloomZ：模型地址
LLama：模型地址
Flan-T5：模型地址
OPT：模型地址

参考：MedicalGPT 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)_medicalgpt做增量预训练-CSDN博客

小趴菜日记

关注

22
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
开源数据集和开源模型个人记录

7万条繁体中文的reward数据集（翻译自rm-static）16GB中英文无监督、平行语料。
复制链接

扫一扫

小趴菜日记 CSDN认证博客专家 CSDN认证企业博客

码龄3年

96: 原创

105万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1627: 积分

439: 粉丝

639: 获赞

31: 评论

602: 收藏

私信

关注

热门文章

最新评论

nn.LSTM个人记录
假如我年少有为�: 请问这个input size是什么含义呢，输入的特征数量吗
报错The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit mu
一掬净土: 我看你重新安装的是win版本的，mac上如何处理呢？
nn.LSTM个人记录
xunziyounb: 您好，我在复现音频信号+神经网络的一篇论文的时候也看到了记忆单元的字样，他是这样描述的：时域 CRN 模型包含由六层一维 CNN 构成的编码器，两层 LSTM 层和由六层一维 CNN 构成的解码器。编码器中每层的输出通道数为 [32, 32, 32, 64, 64, 64]，每层的卷积核的大小为 [64, 64, 32, 16, 8, 8]。每层 LSTM 有 64 个记忆单元。解码器中每层的输出通道数为 [64, 64, 32, 32, 32, 1]，每层的卷积核大小为 [8, 8, 16,32, 64, 64]。模型通过 Adam 优化器训练了 50 轮。，请问如果是这样的一个神经网络结构，这里的LSTM的inputsize应该是多少呢？主要是我没明白他这里说的记忆单元是什么意思，但是却和上面编码器最后一层的输出通道数是一样的
InternLM-Chat-7B部署调用-个人记录
木子后更是: 官网点击参加训练营填写信息邀请码就会自动发放到邮箱了
huggingface transformers框架个人记录
ryanchou1: 添加compute_metric之后在验证时会爆显存，有办法避免嘛

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。