Model Training (训练与推理)
文章平均质量分 71
关注于 深度学习模型 的 训练与推理(Training&Inference) 技术。
SpikeKing
Love magic for itself. 商务合作请发私信联系。
展开
-
Training - PyTorch Lightning 的 Horovod 策略实践 (all_gather)
在 PyTorch Lightning 中使用 Horovod 策略,可以在多个 GPU 上并行训练模型。Horovod 是分布式训练框架,通过优化数据传输来提高多 GPU/CPU 训练的效率。要在 PyTorch Lightning 中使用 Horovod,需要在训练命令中指定 Horovod 作为策略。原创 2024-04-12 16:42:47 · 1086 阅读 · 0 评论 -
Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)
在 PyTorch Lightning 中,pl.Trainer 的 accumulate_grad_batches 参数允许在执行反向传播和优化器步骤之前,累积多个批次的梯度。这样,可以增加有效的批次大小,而不会增加内存开销。例如,如果设置 accumulate_grad_batches=8,则会在执行优化器的 .step() 方法之前,累积 8 个批次的梯度。原创 2024-04-11 15:40:11 · 501 阅读 · 0 评论 -
Training - Kubeflow 的 PyTorchJob 配置 DDP 分布式训练 (ncclInternalError)
Kubeflow 的 PyTorchJob 是 Kubernetes 自定义资源,用于在 Kubernetes 上运行 PyTorch 训练任务,是 Kubeflow 组件中的一部分,具有稳定状态,并且,实现位于 training-operator 中。PyTorchJob 允许定义一个配置文件,来启动 PyTorch 模型的训练,可以是分布式的,也可以是单机的。原创 2024-04-09 22:48:25 · 654 阅读 · 0 评论 -
Training - 使用 WandB 配置 可视化 模型训练参数
WandB (Weights&Biases) 是轻量级的在线模型训练可视化工具,类似于 TensorBoard,可以帮助用户跟踪实验,记录运行中的超参数和输出指标,可视化结果,并且,共享这些结果。WandB 支持所有主流的深度学习框架,如 TensorFlow、PyTorch、Keras 等,提供了丰富的功能。使用 WandB,可以轻松地监控模型训练过程,通过云平台同步模型输出、日志和文件,便于远程监控和协作。原创 2024-04-09 10:46:35 · 751 阅读 · 0 评论