AIGC学习笔记—minimind详解+训练+推理-CSDN博客

本文链接：https://blog.csdn.net/m0_56569131/article/details/142590578

前言

这个开源项目是带我的一个导师，推荐我看的，记录一下整个过程，总结一下收获。这个项目的slogan是“大道至简”，确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型（LLM），通过从零开始训练一个仅26MB的微型语言模型MiniMind，最快可在3小时内完成。降低学习LLM的门槛，让更多人能够轻松上手。

MiniMind极其轻量，约为GPT-3的1/7000，适合普通个人GPU进行快速推理和训练。项目基于DeepSeek-V2和Llama3结构，涵盖数据处理、预训练、指令微调（SFT）、偏好优化（DPO）等全部阶段，支持混合专家（MoE）模型。所有代码、数据集及其来源均公开，兼容主流框架，如transformers和DeepSpeed，支持单机单卡及多卡训练，并提供模型测试及OpenAI API接口。

下面放一个官方给的结果

一、使用conda搭建环境

这里不做过多赘述了，创建一个这个项目的独立虚拟环境，在这个环境下装所需的库，如下是我的软硬件环境配置（根据自己情况酌情变动）：

Windows11

Python == 3.9

Pytorch == 2.1.2

CUDA == 11.8

requirements.txt

二、准备数据集

下载到./dataset/目录下

MiniMind训练数据集	下载地址
tokenizer训练集	HuggingFace / 百度网盘
Pretrain数据	Seq-Monkey官方 / 百度网盘 / HuggingFace
SFT数据	匠数大模型SFT数据集
DPO数据	Huggingface

这里我就是用官方的了，后续我会打包整体的上传上去，免费下载，要不**某网盘还得冲svip，为了这个会员我差点叫了一声爸爸.....但是这里我想解释一下这个数据集，因为一开始我确实不了解，记录下来

Tokenizer训练集：这个数据集用于训练分词器（tokenizer），其任务是将文本数据转化为模型可以处理的词汇单元。

Pretrain数据：用于模型的预训练确保模型能够学习通用的语言模式。

SFT数据：该数据集专门用于指令微调（SFT），使模型能够更好地理解和执行用户的具体指令。SFT是提高模型实际应用能力的重要步骤。

DPO数据：这个数据集主要用于偏好优化（DPO），旨在帮助模型通过用户反馈来改进模型输出的质量和相关性，从而更好地满足用户需求。