AI 模型的训练 模型并行-》 就是把模型就行分层级 model=model-layer-0+model-layer-1+model-layer-2+model-layer-3
比如
一个主机有4个CPU CPU0, CPU1, CPU2, CPU3
对应的是模型 model-layer-0,model-layer-1,model-layer-2,model-layer-3
数据并行:
数据分成多份,让不同的GPU去计算
训练中太慢是否可以停止下来了 ,提供算力在进行演算,理论是可以的,
使用什么样的GPU,取决于AI 的模型: 可以在python的写法,在训练一部分数据时候,我们可以做一个checkpoint,记录下来,增加算力之后在再次计算,不过最后结果要做个并集处理
常见的显卡 RT3090 3070 V100 H100 市场主要的是 AMD 和 NAIDA
驱动 nvidia-device-plugin or gpu-operator
显卡驱动 一般都是系统自动驱动完成, 有的需要从 官网下载驱动 比如 NAIDA
这样的问题,下面做了具体的解释:
Distributed Training | Colossal-AI
GPU training (Intermediate) — PyTorch Lightning 1.9.0dev documentation
参考:
Colossal-AI - A Unified Deep Learning System for Large-Scale Parallel Training