“ 大模型的分布式训练和部署,是一个必须要学会的东西**”**
在学习大模型的过程中,很多人都知道大模型的训练与部署,但网上大部分资料介绍的都是单机训练和部署。
比如在之前的文章中——你想在本地部署大模型吗?,介绍了本地部署大模型的三种工具。
但这些工具总会有各种各样的问题。
01
—
大模型训练或部署中的问题
在学习大模型训练和部署的过程中,很多人都是按照网络上的教程进行学习;但这些教程大部分只讲了浅显的东西,还有很多问题没有讲明白。
比较明显的两个问题就是,大模型的规模问题和大模型的适配问题。
规模问题
学习和企业级应用是有着巨大差别的,比如说学习大模型的过程中,只需要设计一个几十个参数的大模型即可了解大模型的设计,训练和使用原理。
但在真正的企业级应用中,大模型的参数少则几个亿,多则几十,几百,甚至几万亿的参数量。
在这种企业级应用中,如果大规模的参数怎么保存,怎么加载;单机硬件资源有限的情况下,怎么进行分布式训练和分布式部署。
以openAI的chatGPT来说,最新版的gpt4o预估