AIGC学习笔记—minimind详解+训练+推理

前言

这个开源项目是带我的一个导师,推荐我看的,记录一下整个过程,总结一下收获。这个项目的slogan是“大道至简”,确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型(LLM),通过从零开始训练一个仅26MB的微型语言模型MiniMind,最快可在3小时内完成。降低学习LLM的门槛,让更多人能够轻松上手。

MiniMind极其轻量,约为GPT-3的1/7000,适合普通个人GPU进行快速推理和训练。项目基于DeepSeek-V2和Llama3结构,涵盖数据处理、预训练、指令微调(SFT)、偏好优化(DPO)等全部阶段,支持混合专家(MoE)模型。所有代码、数据集及其来源均公开,兼容主流框架,如transformers和DeepSpeed,支持单机单卡及多卡训练,并提供模型测试及OpenAI API接口。

下面放一个官方给的结果

一、使用conda搭建环境

这里不做过多赘述了,创建一个这个项目的独立虚拟环境,在这个环境下装所需的库,如下是我的软硬件环境配置(根据自己情况酌情变动):

二、准备数据集 

下载到./dataset/目录下

MiniMind训练数据集 下载地址
tokenizer训练集 HuggingFace / 百度网盘
Pretrain数据 Seq-Monkey官方 / 百度网盘 / HuggingFace
SFT数据 匠数大模型SFT数据集
DPO数据 Huggingface

这里我就是用官方的了,后续我会打包整体的上传上去,免费下载,要不**某网盘还得冲svip,为了这个会员我差点叫了一声爸爸.....但是这里我想解释一下这个数据集,因为一开始我确实不了解,记录下来

  • Tokenizer训练集:这个数据集用于训练分词器(tokenizer),其任务是将文本数据转化为模型可以处理的词汇单元。

  • Pretrain数据:用于模型的预训练确保模型能够学习通用的语言模式。

  • SFT数据:该数据集专门用于指令微调(SFT),使模型能够更好地理解和执行用户的具体指令。SFT是提高模型实际应用能力的重要步骤。

  • DPO数据:这个数据集主要用于偏好优化(DPO),旨在帮助模型通过用户反馈来改进模型输出的质量和相关性,从而更好地满足用户需求。

三、训练tokenizer

话不多说先上代码,在记录一下我在看这个代码中了解的知识以及总结。


                
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值