pytorch自定义损失函数

最新推荐文章于 2024-01-25 19:54:13 发布

能向左或向右

最新推荐文章于 2024-01-25 19:54:13 发布

阅读量974

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_37590842/article/details/117391379

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本文介绍了在PyTorch中自定义损失函数时可能遇到的问题，包括detach()、requires_grad()的误用，以及叶子节点的处理。强调了理解优化参数和学习率的重要性，并提醒注意在计算图中对数据的操作。

摘要由CSDN通过智能技术生成

相信在看到这篇文章之前，你已经看到了各位博主都再说pytorch自定已损失函数很简单，主要通过以下三个手段：

继承torch.nn.Module ,重写forward()函数
继承torch.nn.autograd.function,重写forward()和backward()函数。
输入requires_grad=True，自定义函数。

实质上吧，我觉得这三种方法没什么区别。都会有挺多问题出现！

第一点：detach()别乱用。

tensor.detach()

detach()会剥离tensor的梯度信息。

举个例子：

def m(input,target):
    input = input.detach().cpu()
    target = target.detach().cpu()
    samilarity = torch.cosine_similarity(input, target, dim = 0)
    return samilarity

上面这个例子里，input和target剥离了梯度信息，在后面的计算余弦相似度时，input,target都因为是没有梯度信息的，进而导致samilarity没有梯度。

第二点：requires_grad()别乱用。

a = torch.tensor([1,0,2,3],dtype=torch.long,requires_grad = True)

上面的例子里，a由于requires_grad设置为True，因此，它会被认为成叶子节点。如果它同时出现forward()中，那么程序将会在backward()中报叶子节点在计算图中的错误。

leaf variable has been moved into the graph interior

第三点：叶子节点在forward()之前被改变了，那么就会报下列的错误。

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation

第四点：时刻记住自己所要优化的参数，待求导的数据是什么。我们围绕网络来讨论。

输入数据为x，假设网络输出为f(x;theta)，那么theta就是我们需要去优化的参数。学习率实际上起什么用？学习率就是让theta中的每个数按学习率下降。这点，如果不相信，可以使用

for params in model.named_parameters():
    print(params[0],params[1])

查看一下thera究竟是怎么变化的。

在明白了学习率之后，我们再看看需要求导的或是希望期望最大化的数据到底是什么。

我们所期望的是使 $\frac{\partial f(x;\theta)}{\partial x} = 0$ ，在这点上，我们应该就能理解，所需求导的数据是theta了吧。从另一个角度来说，对数据求导本身也没有任何意义。在这点上，我们可以将网络看做是一个隐函数，只需要知道它可以得到近似解就可以了（因为机器学习就是为了求最优解的近似解，谁的近似解更接近于最优解，那么谁的这个模型就更好，具体表现在各指标变高这点上）。