Pytorch训练过程中改变模型参数 requires_grad 属性

如果模型只在一块GPU上跑,该过程非常简单,只需要训练中途迭代model的 parameters,然后改变各个param的requires_grad 属性即可:

for name, param in model.named_parameters():
    logger.info('parameter of %s'%name)
    logger.info('before requires_grad is : %s'%param.requires_grad)
    param.requires_grad = True
    logger.info('after requires_grad is : %s' % param.requires_grad)

但是如果模型是跑在多块GPU上,就要搞清楚pytorch是如何对同一个Module对象进行分布式处理的。

可以肯定的是,pytorch将gpu_0上的模型进行复制,放到其他GPU上,可以使用DataParallel类:

model.to(device)
    if n_gpu > 1:
        model = torch.nn.DataParallel(model)

DataParallel类有一个数据成员:module,可以获得该用于复制的basic module,通过改变该basic module的参数的requires_grad 属性,即可达到模型在平行计算过程中,各个参数参与梯度回传迭代:

for name, param in model.module.named_parameters():
    logger.info('parameter of %s'%name)
    logger.info('before requires_grad is : %s'%param.requires_grad)
    param.requires_grad = True
    logger.info('after requires_grad is : %s' % param.requires_grad)

这里需要确定的是:pytorch是否是只迭代更新gpu_0上的模型的参数,然后将更新后的参数复制到其他gpu上?还是各个gpu单独迭代模型参数?如果是前者,上述操作即可完成训练过程中改变参数requires_grad 属性,如果是后者,那上面的操作只更新了gpu_0上模型的参数属性,其他gpu上的模型参数属性未更新,是错误的。

验证上述猜想:

pytorch在每次前向传播的过程中,都会将主GPU上的模型,分发给各个GPU上,所以,梯度更新只会在主GPU上,更新模型的requires_grad 属性也只需要在主GPU上即可,参考:https://www.cnblogs.com/jfdwd/p/11466126.html

DataParallel并行计算只存在在前向传播

那如何确定哪一块GPU是主GPU?

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch,设置参数requires_grad属性为False可以将其标记为不需要梯度计算,从而不会在反向传播过程更新该参数的梯度值。然而,即使将参数requires_grad属性设置为False,如果在模型使用了该参数进行计算,该参数仍然会被更新,因为PyTorch会根据计算图自动推导出需要更新的参数。 例如,假设模型的某个层使用了一个requires_grad为False的参数进行计算: ``` class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.fc = nn.Linear(10, 1, bias=False) self.fc.weight.requires_grad = False def forward(self, x): out = self.fc(x) return out ``` 在训练过程,即使将该参数requires_grad属性设置为False,该参数仍然会被更新: ``` model = MyModel() optimizer = torch.optim.SGD(model.parameters(), lr=0.1) for i in range(10): x = torch.randn(1, 10) y = torch.randn(1, 1) optimizer.zero_grad() output = model(x) loss = nn.functional.mse_loss(output, y) loss.backward() optimizer.step() print(model.fc.weight) ``` 输出结果为: ``` tensor([[-0.0233, 0.0133, 0.1036, 0.0312, -0.0608, -0.1007, -0.1006, -0.0221, -0.0030, 0.0778]]) ``` 可以看到,虽然将fc层的权重设置为不需要梯度计算,但是该参数仍然被更新了。这是因为在反向传播过程PyTorch会根据计算图自动推导出需要更新的参数,而不是根据requires_grad属性来确定需要更新的参数。因此,在模型使用参数进行计算时,即使将其requires_grad属性设置为False,该参数仍然可能被更新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值