从零开始训练小型语言模型之minimind

西京刀客

于 2025-03-08 22:46:51 发布

阅读量1.5k

点赞数 13

分类专栏： AI 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/inthat/article/details/146123146

版权

AI 专栏收录该内容

23 篇文章

订阅专栏

文章目录

从零开始训练小型语言模型之minimind
- 什么是minimind
- 从小模型开始

从零开始训练小型语言模型之minimind

什么是minimind

github: https://github.com/jingyaogong/minimind

目前市面上的大语言模型动辄上百亿参数，训练成本高昂。就算是自己想学习和研究，也会被巨大的硬件门槛挡在门外。而 MiniMind 通过精妙的设计，把模型参数压缩到了最小，让个人开发者也能亲手训练 AI 模型！

最小版本仅有 26M 大小（约为 GPT-3 的 1/7000），一张普通的游戏显卡就能运行。项目提供了完整的训练流程：

基础语言能力训练（预训练）
对话能力训练（指令微调）
快速适应新任务（LoRA 微调）
优化回答质量（DPO 偏好对齐）

本项目的目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型。

从小模型开始

为什么建议大家从小模型开始，特别是一些开源小模型？

不说大模型数据训练和微调所需要的资金，算力等问题，就大模型训练所需要的训练和微调数据的收集，就已经是一个很大的工程量了。

之所以建议大家刚开始以小模型为主，原因就是因为从技术原理来说，大模型和小模型没有本质上的区别；只不过大模型和小模型由于量变导致的质变，大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说，大模型和小模型最大的差距就是对算力的需求；虽然从效果上来说，小模型远不如大模型，但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性，因为其算力成本低，甚至可以在个人电脑上进行部署和运维，而且使用个人电脑也可以对它们进行训练和微调，这样就大大降低了我们的学习难度

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

西京刀客 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。