小白模型训练日记-2025/3/1

1. 自动混合精度训练AMP?

自动混合精度训练(Automatic Mixed Precision, AMP)是一种在深度学习中优化训练效率和显存占用的技术。它通过在训练过程中动态地使用不同精度的数据类型(如FP16和FP32)来加速计算并减少显存消耗,同时尽量保持模型的训练精度。
工作原理
(1)前向传播:在前向传播阶段,AMP会自动将适合的操作(如矩阵乘法、卷积等)切换到低精度(如FP16)进行计算,从而加速计算过程并减少显存占用。
(2)反向传播:为了防止低精度计算导致的梯度下溢或数值不稳定,AMP会在反向传播时将梯度放大,并在权重更新时恢复到高精度(FP32)。
(3)梯度缩放:AMP通常会结合梯度缩放(GradScaler)工具,通过放大损失值来确保梯度在低精度计算中保持稳定

2. 单机训练VS 分布式训练

单机训练是指在一个单独的计算设备上进行模型训练的过程。这个设备可以是普通的个人电脑、工作站,或者配备高性能GPU的服务器。
与之相对的是“分布式训练”,后者涉及多个计算设备协同完成训练任务。

3. 恢复训练指的是从新的检查点(checkpoint)恢复训练。

模型在自己的电脑上需要跑2days,一次性无法跑完,为了再次重新训练时从我上次保存的最新检查点开始跑,启用checkpoint即可(需要把resume值设为True

4. shell脚本文件:

这个脚本是一个典型的分布式训练启动脚本,适用于在 Slurm 管理的集群环境中运行深度学习任务。它通过 srun 提交任务,并通过环境变量和命令行参数灵活配置资源分配和训练参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值