云中 GPU的AI训练,显卡分配

AI 模型的训练   模型并行-》 就是把模型就行分层级  model=model-layer-0+model-layer-1+model-layer-2+model-layer-3
 比如  

一个主机有4个CPU  CPU0, CPU1, CPU2, CPU3

  对应的是模型 model-layer-0,model-layer-1,model-layer-2,model-layer-3

数据并行:

数据分成多份,让不同的GPU去计算

训练中太慢是否可以停止下来了 ,提供算力在进行演算,理论是可以的,

使用什么样的GPU,取决于AI 的模型: 可以在python的写法,在训练一部分数据时候,我们可以做一个checkpoint,记录下来,增加算力之后在再次计算,不过最后结果要做个并集处理


常见的显卡  RT3090 3070  V100 H100   市场主要的是 AMD  和 NAIDA  
驱动 nvidia-device-plugin  or  gpu-operator
显卡驱动 一般都是系统自动驱动完成, 有的需要从 官网下载驱动 比如 NAIDA  
 

这样的问题,下面做了具体的解释:

Distributed Training | Colossal-AI

GPU training (Intermediate) — PyTorch Lightning 1.9.0dev documentation

参考:

Colossal-AI - A Unified Deep Learning System for Large-Scale Parallel Training

https://colossalai.org

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值