大模型智能 | 开源中文DeepSeek-R1(满血)蒸馏数据集-110K

本文来源公众号“大模型智能”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/U4usYj5bbizGfstqIOfETg

话不多说,先放数据下载链接。

HF: https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k

MS: https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

该数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。

为什么开源这个数据?

R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但之前群里问,貌似中文数据较少,基本上开源的R1蒸馏数据集都是英文数据,或者是非满血蒸馏数据。

这不就来了嘛!!!

其实对于有机器人的人来说,其实110K数据蒸馏也蛮快的,但巧妇难为无米之炊,大多数人可能是没有那么多资源自己本地部署一个满血版R1,这也是为什么很多蒸馏数据用的32B、7B等进行蒸馏的原因。

开这个数据,就是希望对大家有用,反正无论是做纯SFT,还是复现R1,都要有数据嘛!!

但要说的一点是,因为有很多通用数据(R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集),所以数据的整体长度可能没那么长,大家见谅哈!等有机会,我再开点超长数据的(机器在哭~)。

该中文数据集中的数据分布如下:

  • Math:共计36987个样本,

  • Exam:共计2440个样本,

  • STEM:共计12000个样本,

  • General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat等。

01 数据集蒸馏细节

数据的prompt源来自:

  • Haijian/Advanced-Math

  • gavinluo/applied_math

  • meta-math/GSM8K_zh

  • EduChat-Math

  • m-a-p/COIG-CQIA

  • m-a-p/neo_sft_phase2

  • hfl/stem_zh_instruction

同时为了方便大家溯源,在每条数据的repo_name字段中都加入的原始数据源repo。

在蒸馏过程中,按照DeepSeek-R1官方提供的细节,进行数据蒸馏。

  • 不增加额外的系统提示词

  • 设置temperature为0.6

  • 如果为数学类型数据,则增加提示词,“请一步步推理,并把最终答案放到 \boxed{}。”

  • 防止跳出思维模式,强制在每个输出的开头增加"\n",再开始生成数据

由于个人资源有限,所有数据的蒸馏均调用无问芯穹的企业版满血R1 API生成,在此由衷的感谢无问芯穹。

任务期间,保持稳定地运行300并发,持续运行近12个小时,性能稳定,推理速度最快25 tokens/s。没给我垃圾的并行代码带来太大的负担,哈哈哈~~~感恩!

其实数据蒸馏之前就常用,之前蒸馏GPT4,现在改成蒸馏DeepSeek-R1了。

DS就像是一条鲇鱼,搅浑了开源和闭源这摊死水,前两天百度先宣布免费,再宣布开源。OpenAI同时也是坐不住了,先开发o1的思维链(总结版),后面也不挤牙膏了,说马上来GPT4.5和GPT5。Grok3明天也来了,所以开源越来越好啦~~

02 写在最后

开的这个数据集会有些不完善的地方,毕竟没搞那么久,但希望大家不喜勿喷!

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

### 关于中文满血DeepSeek-R1模型的数据集及相关信息 目前公开的信息显示,DeepSeek公司已经开源了多个版本的模型,其中包括DeepSeek-R1-Zero和DeepSeek-R1以及基于Qwen和Llama提炼出的六个密集型模型(参数规模分别为1.5B, 7B, 8B, 14B, 32B, 和70B)。这些模型涵盖了多种语言的支持,但在具体提到中文满血DeepSeek-R1模型的数据集方面,官方并未明确提及单独针对中文优化的数据集详情[^1]。 尽管如此,可以推测DeepSeek-R1及其衍生模型在训练过程中可能利用了多语言语料库,其中包含了丰富的中文数据。这种假设的基础在于现代大型语言模型通常依赖广泛的互联网文本进行预训练,而中文作为全球使用人数最多的语言之一,在此类语料库中的占比往往较高。因此,即使没有专门标注为“中文”的独立数据集DeepSeek-R1仍有可能具备较强的中文处理能力。 对于希望获取更详细的Chinese full DeepSeek-R1 distilled dataset information的研究者来说,建议关注以下几个方向: - **访问DeepSeek官网或其GitHub仓库**:定期查看是否有更新发布的特定语言版本模型或者相关文档说明。 - **联系DeepSeek团队**:如果项目需求迫切且资源允许,可以直接向开发方询问是否存在内部使用的高质量中文语料可供外部研究人员参考。 - **探索社区贡献**:一些第三方开发者可能会基于已发布模型进一步定制化调整,并分享他们所采用的新颖方法论或是改进后的成果。 此外值得注意的是,虽然当前讨论聚焦于DeepSeek系列产品线下的中文支持情况,但其他主流大厂如阿里巴巴通义千问(Qwen)本身即是以中文为核心设计思路构建起来的强大框架体系;故而在某些应用场景下或许也可以考虑将其纳入备选方案列表之中加以对比分析。 ```python import deepseek as ds # 假设存在一个加载中文版R1的方法 model = ds.load_model('chinese_full_deepseek_r1') print(model.summary()) ``` 以上代码仅为示意用途,实际操作需依据官方最终提供的API接口定义为准。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值