从工程师视角看大模型训练-CSDN博客

本文链接：https://blog.csdn.net/CSDN_224022/article/details/141424706

今年，我们内部对从 pretrain 到 sft 的整个大模型训练流程进行了翻新，模型能力上也有了比较明显的提升，我也在这个过程中对训练有了更深入的理解，在这里分享一下，也算是对自己工作以来最累的一段时光的记录。

从方法论的角度，我认为这次翻新的核心在于，将问题转化为我们擅长的问题。

一般认为，大模型的训练团队应该由这么 2 波人组成：

一波是像 Ilya Suskever 或者 John Schulman 这样的研究人员来提供研究目标与实验方案；
另一波是类似 Greg Brockman 这样的工程师，提供相对稳定的集群，高速的训练框架与推理服务（我不确定 Greg 是干这个的… 但是就是那么个意思吧~）

这两拨人的工作相对解耦，研究人员开开心心做实验，工程师认认真真做优化，从而训出了像 GPT4 这样轰动世界的模型。

但是我们不具备这样的条件：我们的团队中几乎没有研究人员（甚至没有一个 phd），但是有很多经验丰富的工程师。那么扪心自问，我们凭什么能训出来还不错的模型呢？

如果我们转换思维，在 OpenAI 验证了大模型的可行性后。我们可以将大模型的训练问题转变为 3 个搜索问题：

给定训练与推理资源，搜索合适的模型配置；
给定模型配置，搜索训练超参，使其有更低的 next token loss（或在下游 benchmark 上表现出色）；
给定数据，搜索某种数据约束，使其更适合模型训练。

而搜索问题，是很传统的工程问题，只需要考虑：

如何在单位时间内搜更多次，即每次搜索跑得快一些；
如何建立合适的先验，以设置初值与剪枝，即搜得少一点。

对于跑得快，在大模型这里有这样的 3 种优化手段：

相信 scaling law，先在小模型上做大量的实验；
优化训练框架，提升 MFU；
优化任务提交流程，保证卡永远在跑着。

对于搜的少，则采用这样的方法：

通过看论文和博文，知道大家都是咋做的，来设置初值；
通过找到客观的 baseline 以及增加 benchmark，明确差距/瓶颈，针对性提升，来减少实验量。

当我们这样展开问题后，训练大模型这个任务，就变得比较常规了，也就有了直面困难的信心。剩下的事情也就是老老实实去看论文、跑实验、优化框架和提升集群利用率了~

幸运的是，近几个月我们的实践也验证了这套分析的可行性，采用这样的工程手段，是可以搜到一个相当不错的局部最优点的。这段经历让我积累了一条很有趣的经验：我们尝嘲笑说，傻子最擅长的事情是把别人拉到和他一个水平，然后利用他在那个水平丰富的经验击败对手，但是当自己是傻子的时候，也许这就是兵法~

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓