相信在看到这篇文章之前,你已经看到了各位博主都再说pytorch自定已损失函数很简单,主要通过以下三个手段:
- 继承torch.nn.Module ,重写forward()函数
- 继承torch.nn.autograd.function,重写forward()和backward()函数。
- 输入requires_grad=True,自定义函数。
实质上吧,我觉得这三种方法没什么区别。都会有挺多问题出现!
第一点:detach()别乱用。
tensor.detach()
detach()会剥离tensor的梯度信息。
举个例子:
def m(input,target):
input = input.detach().cpu()
target = target.detach().cpu()
samilarity = torch.cosine_similarity(input, target, dim = 0)
return samilarity
上面这个例子里,input和target剥离了梯度信息,在后面的计算余弦相似度时,input,target都因为是没有梯度信息的,进而导致samilarity没有梯度。
第二点:requires_grad()别乱用。
a = torch.tensor([1,0,2,3],dtype=torch.long,requires_grad = True)
上面的例子里,a由于requires_grad设置为True,因此,它会被认为成叶子节点。如果它同时出现forward()中,那么程序将会在backward()中报叶子节点在计算图中的错误。
leaf variable has been moved into the graph interior
第三点:叶子节点在forward()之前被改变了,那么就会报下列的错误。
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation
第四点:时刻记住自己所要优化的参数,待求导的数据是什么。我们围绕网络来讨论。
输入数据为x,假设网络输出为f(x;theta),那么theta就是我们需要去优化的参数。学习率实际上起什么用?学习率就是让theta中的每个数按学习率下降。这点,如果不相信,可以使用
for params in model.named_parameters():
print(params[0],params[1])
查看一下thera究竟是怎么变化的。
在明白了学习率之后,我们再看看需要求导的或是希望期望最大化的数据到底是什么。
我们所期望的是使,在这点上,我们应该就能理解,所需求导的数据是theta了吧。从另一个角度来说,对数据求导本身也没有任何意义。在这点上,我们可以将网络看做是一个隐函数,只需要知道它可以得到近似解就可以了(因为机器学习就是为了求最优解的近似解,谁的近似解更接近于最优解,那么谁的这个模型就更好,具体表现在各指标变高这点上)。