torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度

torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度

1、什么是amp?

amp:Automatic mixed precision,自动混合精度,可以在神经网络推理过程中,针对不同的层,采用不同的数据精度进行计算,从而实现节省显存和加快速度的目的。

自动混合精度的关键词有两个:自动、混合精度。这是由PyTorch 1.6的torch.cuda.amp模块带来的:

from torch.cuda import amp

混合精度预示着有不止一种精度的Tensor,那在PyTorch的AMP模块里是几种呢?2种:torch.FloatTensor(浮点型 32位)和torch.HalfTensor(半精度浮点型 16位);

自动预示着Tensor的dtype类型会自动变化,也就是框架按需自动调整tensor的dtype(其实不是完全自动,有些地方还是需要手工干预);

注意

  1. torch.cuda.amp 的名字意味着这个功能只能在cuda上使用。
  2. torch默认的tensor精度类型是torch.FloatTensor

2、为什么需要自动混合精度(amp)?

也可以这么问:为什么需要自动混合精度,也就是torch.FloatTensortorch.HalfTensor的混合,而不全是torch.FloatTensor?或者全是torch.HalfTensor

原因: 在某些上下文中torch.FloatTensor有优势,在某些上下文中torch.HalfTensor有优势。

torch.HalfTensor

  1. torch.HalfTensor的优势就是存储小、计算快、更好的利用CUDA设备的Tensor Core。因此训练的时候可以减少显存的占用(可以增加batchsize了),同时训练速度更快;
  2. torch.HalfTensor的劣势就是:数值范围小(更容易Overflow / Underflow)、舍入误差(Rounding Error,导致一些微小的梯度信息达不到16bit精度的最低分辨率,从而丢失)。

可见,当有优势的时候就用torch.HalfTensor,而为了消除torch.HalfTensor的劣势,我们带来了两种解决方案:

  1. 梯度scale,这正是上一小节中提到的torch.cuda.amp.GradScaler,通过放大loss的值来防止梯度消失underflow(这只是BP的时候传递梯度信息使用,真正更新权重的时候还是要把放大的梯度再unscale回去)
  2. 回落到torch.FloatTensor,这就是混合一词的由来。那怎么知道什么时候用torch.FloatTensor,什么时候用半精度浮点型呢?这是PyTorch框架决定的,AMP上下文中,一些常用的操作中tensor会被自动转化为半精度浮点型的torch.HalfTensor(如:conv1d、conv2d、conv3d、linear、prelu等)

3、如何在PyTorch中使用自动混合精度?

答案是 autocast + GradScaler

3.1 autocast

使用torch.cuda.amp模块中的autocast 类。

from torch.cuda import amp

# 创建model,默认是torch.FloatTensor
model = Net().cuda()
optimizer = optim.SGD(model.parameters()
### torch CUDA OutOfMemoryError 显存管理 解决方案 当遇到 `torch.cuda.OutOfMemoryError` 错误时,这通常意味着 GPU 的显存不足以支持当前的任务需求。以下是几种有效的解决方案来应对这一问题: #### 1. 减少批量大小(Batch Size) 降低模型训练推理过程中的批量大小是一种简单而直接的方法。通过减少每次前向传播和反向传播处理的数据量,可以显著降低显存占用。例如,在某些情况下,将批量大小从 16 改为 8 或更低即可解决问题[^5]。 #### 2. 使用梯度累积(Gradient Accumulation) 如果减小批量大小会影响模型性能,可以通过梯度累积技术保持较大的有效批量大小。这种方法允许在多次迭代中逐步积累梯度仅每隔若干次更新权重,从而模拟更大的批量效果[^3]。 ```python accumulation_steps = 4 # 假设我们希望每四步更新一次参数 for i, data in enumerate(dataloader): outputs = model(data) loss = criterion(outputs, labels) loss = loss / accumulation_steps # 平均损失值 loss.backward() if (i + 1) % accumulation_steps == 0: optimizer.step() optimizer.zero_grad() ``` #### 3. 启用混合精度训练(Mixed Precision Training) 利用 NVIDIA 提供的 Apex 库或其他框架内置的支持功能实现半精度浮点数运算(FP16),可以在不牺牲太多计算精度的情况下节省大量显存资源[^1]。 ```python from apex import amp model, optimizer = amp.initialize(model, optimizer, opt_level="O1") for inputs, targets in dataloader: outputs = model(inputs) loss = criterion(outputs, targets) with amp.scale_loss(loss, optimizer) as scaled_loss: scaled_loss.backward() optimizer.step() optimizer.zero_grad() ``` #### 4. 调整 PyTorch 内存分配配置 有时由于内存碎片化的原因即使有可用空间也可能报错。此时可尝试调整环境变量 `PYTORCH_CUDA_ALLOC_CONF` 来优化内存管理策略[^4]。 ```bash export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 ``` 或者在 Python 中设置: ```python import os os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:128' ``` #### 5. 清理未使用的张量对象 确保及时释放不再需要的 Tensor 对象以及调用 `.cuda().empty_cache()` 方法手动清理缓存有助于回收部分闲置的 GPU 存储区域[^2]。 ```python del variable_name # 删除不需要的对象 torch.cuda.empty_cache() # 手动清空缓存 ``` --- ### 总结 以上方法涵盖了从基础操作到高级技巧的不同层面措施用于缓解甚至彻底消除因显存量不足引发的各种异常状况。具体采用哪种方式取决于实际应用场景和个人偏好等因素综合考量决定。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值