Colossal-AI发布新的深度学习辅助框架,半小时即可完成ViT-Base/32预训练

Colossal-AI系统采用大批量优化器LAMB及多维张量并行技术,大幅缩短了VisionTransformer(ViT)预训练时间,仅需半小时。该系统克服了大批量优化难题,实现了高效并行计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从头开始预训练计算机视觉领域最热门的 AI 模型 Vision Transformer (ViT) 需要多长时间? Colossal-AI系统最新给出的答案是半小时!

近年来,随着AI性能的不断提升,AI模型参数的数量也呈现爆发式增长,从AlexNet、ResNet到BERT、GPT、MoE……,AI模型的参数量级不断刷新,现已超过万亿 ,这使得训练成本急剧上升。 仅仅训练2020年发布的千亿参数GPT-3,即便是用一块最先进的英伟达A100 GPU进行训练,也需要等待100多年。 显然,如何加速AI训练过程已经成为AI行业最大的痛点之一。

加速AI模型训练的一种常见方法是借助数据并行性来实现大批量训练,即通过增加批量大小,从而减少迭代次数,最终实现训练时间的显着减少。 但是由于泛化差距,大批量训练通常会导致测试集上的收敛困难和性能下降。

因此,越来越多的科技巨头选择使用高性能计算技术,借助谷歌的 TPU Pod 和英伟达的 SuperPOD 等超级计算机集群,使用数百甚至数千个最好的处理器来并行加速计算任务。

然而,即使是价值数亿美元的超级计算机,也面临着当硬件堆栈达到一定数量时,计算效率无法进一步提高,浪费大量计算资源的瓶颈。 此外,分布式并行编程通常需要与计算机系统和架构相关的专业知识,这进一步增加了前沿人工智能模型的训练成本。

在 ImageNet-1K 数据集(128 万张图像)上,ViT 的预训练需要使用整个数据集 300 次,使用一个批处理大小为 128 的 NVIDIA A100 GPU 预训练 ViT-Base/32 大约需要三天时间 .

使用 Colossal-AI 提供的大批量优化器 LAMB,可以成功克服大批量优化的困难,通过 32K 批量大小的数据并行快速将训练过程扩展到 200 个 A100 GPU,只需 0.61 小时即可完成 ViT-Base/32 训练并保持准确性。 对于更复杂的ViT-Base/16 和 ViT-Large/32,Colossal-AI 也分别只需 1.87 小时和 1.30 小时即可完成。

目前主流的张量并行方案,如微软的DeepSpeed和英伟达的Megatron,都是一维张量并行,这意味着每个处理器都需要与其他所有处理器进行通信。但是,处理器之间的通信,尤其是多机跨节点通信,不仅会严重降低运行速度,占用处理器大量额外内存,而且能耗成本非常高。针对这个痛点,Colossal-AI 提出使用多维张量并行:2/2.5/3 维的张量并行。 Colossal-AI还完全兼容现有的数据并行、流水线并行、序列并行等并行模式,共同构成了Colossal-AI的“六维并行”,远超微软和英伟达的三维并行,相关技术可以轻松扩展到推理加速领域。

Colossal-AI作为深度学习框架的核心,将“系统优化”与“上层框架”和“下层硬件”解耦,为多维并行、大批量优化器、零等前沿技术的实现提供了便捷的实现。 以即插即用的方式卸载冗余内存。 易于扩展和使用,只需要少量的代码修改,防止用户学习复杂的分布式系统知识。 对于GPU等处理器来说,使用密集集群的平均算力成本会比分散使用低很多,这样不仅可以节省训练时间,还可以大大降低算力成本。

Colossal-AI 仍处于 beta 测试阶段,在不久的将来会发布更多惊人的结果。

Paper Address: https://arxiv.org/abs/2110.14883

Project Address: https://github.com/hpcaitech/ColossalAI

Document Address: https://www.colossalai.org/

作者:HPC-AI Tech

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值