torch.amp自动混合精度包

云帆@

于 2024-07-16 13:56:19 发布

阅读量170

点赞数 2

分类专栏： torch 文章标签：深度学习计算机视觉 pytorch

本文链接：https://blog.csdn.net/weixin_40777649/article/details/140464529

版权

torch 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

一、定义

定义
案例

二、实现

定义
torch.amp 给用户提供了较为方便的混合精度训练机制。方便”体现在两个方面：
1. 用户不需要手动对模型参数 dtype 转换，amp 会自动为算子选择合适的数值精度
2. 对于反向传播的时候，FP16 的梯度数值溢出的问题，amp 提供了梯度 scaling 操作，而且在优化器更新参数前，会自动对梯度 unscaling，所以，对用于模型优化的超参数不会有任何影响。
3. 自动使用tensor Score 机制，加速训练。
4. 组件：amp.autocast、amp.GradScaler.
案例

from torch import autocast as autocast
model=Net().cuda()
optimizer=optim.SGD(model.parameters(),...)
scaler = GradScaler() #训练前实例化一个GradScaler对象
for epoch in epochs:
  for input,target in data:
    optimizer.zero_grad()

    with autocast(device_type="cuda"): ＃前后开启autocast
      output=model(input)
      loss = loss_fn(output,targt)

    scaler.scale(loss).backward()  #为了梯度放大
    #scaler.step() 首先把梯度值unscale回来，如果梯度值不是inf或NaN,则调用optimizer.step()来更新权重，否则，忽略step调用，从而保证权重不更新。   
    scaler.step(optimizer)
    scaler.update()  #准备着，看是否要增大scaler

混合精度+梯度裁剪

from torch  import autocast as autocast

model=Net().cuda()
optimizer=optim.SGD(model.parameters(),...)

scaler = GradScaler() #训练前实例化一个GradScaler对象
for epoch in epochs:
  for input,target in data:
    optimizer.zero_grad()

    with autocast(): ＃前后开启autocast
      output=model(input)
      loss = loss_fn(output,targt)
    scaler.scale(loss).backward()  #为了梯度放大
    scaler.unscale_(optimizer)
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)  
    scaler.step(optimizer)
    scaler.update()  #准备着，看是否要增大scaler

数据并行+混合精度

MyModel(nn.Module):
    def forward(self, input):
        with autocast():
            ...
model = MyModel()
dp_model=nn.DataParallel(model)
with autocast():
    output=dp_model(input)
    loss = loss_fn(output)