在微调的时候,特征提取层可能已经收敛不再需要backward更新,这个时候我们需要去固定它的参数,可以使用requires_grad_(False)、detach_()来实现。
结论:
requires_grad_(False)只会将当前层的参数固定,对梯度往前传播不造成影响,从结果上看除了第二层的grad为None,与不固定参数来比其他层grad是相同的。detach_()直接从当前层把梯度截断了。显然,requires_grad_(False)更加灵活,可以把任意层的参数固定,而使用detach_(),当前层和之前的所以层的参数都固定,但是如果需求是一样的话detach_()的性能更好一些。
具体代码和结果:
1.requires_grad_(False),具体代码如下:
import torch
def init_weights(m):
if type(m) == torch.nn.Linear :
m.weight.data=torch.ones_like(m.weight)
m.bias.data = torch.ones_like(m.bias)
class Net(torch.nn.Module):
def __init__(self):
super(Net,self).__init__()
self.f1=torch.nn.Linear(1,2)
self.f2=torch.nn.Linear(2,3)
self.f3 = torch.nn.Linear(3, 2)
def forward(self,x):