前段时间,大数据巨头 Databricks 宣布已签署最终协议,将以13亿美元的价格,收购位于旧金山的人工智能初创公司MosaicML 。这篇文章来自 MosaicML官方的技术博客,是对 MosaicML 大模型训练平台的一个简单介绍。
AIGC领域最大收购:Databricks 13亿美元买下MosaicML,成立仅2年员工60人-36氪
36kr.com/p/2319199142134407
https://www.mosaicml.com/blog/train-custom-gpt-diffusion-models
www.mosaicml.com/blog/train-custom-gpt-diffusion-models
MosaicML 平台旨在应对训练 ChatGPT、LaMDA 和 Stable Diffusion 等大模型的挑战。这篇文章详细分析了训练这些模型的困难,并展示了 MosaicML 平台如何使 AI 大模型的训练变得更加轻松。
如今,像 ChatGPT、LaMDA 和 Stable Diffusion 这样的 AI 大模型为初创企业和成熟企业提供了新的发展或者腾飞机会。
然而,对于许多公司和机构来说,训练这些模型过于复杂和昂贵,需要特定的专业知识和工具。因此,只有少数几家公司拥有训练这些模型的能力。我们建立了 MosaicML 平台,以使大规模的模型训练更加容易。现在,各种规模的公司和机构都可以训练自己行业的特定大模型,拥有完整的模型所有权,并且不用担心数据隐私问题。
- AI大模型训练面临的挑战
基础设施方面的挑战:如GPU可用性不足、软件工具栈的复杂性、数百个GPU的扩展以及容错能力,使得训练大模型变得困难
什么使得训练大模型如此困难?
- GPU 的可用性
训练大模型需要大量先进的 GPU。举例来说,Meta 公司的拥有 1750 亿参数的 OPT-175 模型在 1024 个 NVIDIA A100 GPU 上进行了为期 33 天的训练。类似地,谷歌的拥有 1370 亿参数的 LaMDA 模型在 1024 个 TPU 上进行了长达 57 天的训练。
GPU 往往一卡难求。并且,一旦选择了某家云服务商并最终获得所需的 GPU 访问权限,专有工具如 AWS SageMaker Model Parallel Library 会使您难以将模型训练迁移到另一家云服务商(微软云或者谷歌云)。
- 工具栈的复杂性
一旦有了 GPU 集群,就需要一个工具栈来协调数千个 GPU 的分布式训练任务。以下是一个大模型工具栈的简介(为简单起见,省略了与 ML 训练无关的部分)。
一个大模型工具栈的简介
配置这种技术工具栈中每一部分的组件都是棘手且