pytorch笔记:06)requires_grad和volatile

requires_grad
Variable变量的requires_grad的属性默认为False,若一个节点requires_grad被设置为True,那么所有依赖它的节点的requires_grad都为True。

x=Variable(torch.ones(1))
w=Variable(torch.ones(1),requires_grad=True)
y=x*w
x.requires_grad,w.requires_grad,y.requires_grad
Out[23]: (False, True, True)

y依赖于w,w的requires_grad=True,因此y的requires_grad=True (类似or操作)

volatile
volatile=True是Variable的另一个重要的标识,它能够将所有依赖它的节点全部设为volatile=True,其优先级比requires_grad=True高。因而volatile=True的节点不会求导,即使requires_grad=True,也不会进行反向传播,对于不需要反向传播的情景(inference&#x

PyTorch中,设置参数的requires_grad属性为False可以将其标记为不需要梯度计算,从而不会在反向传播过程中更新该参数的梯度值。然而,即使将参数的requires_grad属性设置为False,如果在模型中使用了该参数进行计算,该参数仍然会被更新,因为PyTorch会根据计算图自动推导出需要更新的参数。 例如,假设模型中的某个层使用了一个requires_grad为False的参数进行计算: ``` class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.fc = nn.Linear(10, 1, bias=False) self.fc.weight.requires_grad = False def forward(self, x): out = self.fc(x) return out ``` 在训练过程中,即使将该参数的requires_grad属性设置为False,该参数仍然会被更新: ``` model = MyModel() optimizer = torch.optim.SGD(model.parameters(), lr=0.1) for i in range(10): x = torch.randn(1, 10) y = torch.randn(1, 1) optimizer.zero_grad() output = model(x) loss = nn.functional.mse_loss(output, y) loss.backward() optimizer.step() print(model.fc.weight) ``` 输出结果为: ``` tensor([[-0.0233, 0.0133, 0.1036, 0.0312, -0.0608, -0.1007, -0.1006, -0.0221, -0.0030, 0.0778]]) ``` 可以看到,虽然将fc层的权重设置为不需要梯度计算,但是该参数仍然被更新了。这是因为在反向传播过程中,PyTorch会根据计算图自动推导出需要更新的参数,而不是根据requires_grad属性来确定需要更新的参数。因此,在模型中使用参数进行计算时,即使将其requires_grad属性设置为False,该参数仍然可能被更新。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值