pytorch自定义损失函数

相信在看到这篇文章之前,你已经看到了各位博主都再说pytorch自定已损失函数很简单,主要通过以下三个手段:

  1. 继承torch.nn.Module ,重写forward()函数
  2. 继承torch.nn.autograd.function,重写forward()和backward()函数。
  3. 输入requires_grad=True,自定义函数。

 实质上吧,我觉得这三种方法没什么区别。都会有挺多问题出现!

 第一点:detach()别乱用。

tensor.detach()

detach()会剥离tensor的梯度信息。

举个例子:

def m(input,target):
    input = input.detach().cpu()
    target = target.detach().cpu()
    samilarity = torch.cosine_similarity(input, target, dim = 0)
    return samilarity

上面这个例子里,input和target剥离了梯度信息,在后面的计算余弦相似度时,input,target都因为是没有梯度信息的,进而导致samilarity没有梯度。

第二点:requires_grad()别乱用。

a = torch.tensor([1,0,2,3],dtype=torch.long,requires_grad = True)

上面的例子里,a由于requires_grad设置为True,因此,它会被认为成叶子节点。如果它同时出现forward()中,那么程序将会在backward()中报叶子节点在计算图中的错误。

leaf variable has been moved into the graph interior

第三点:叶子节点在forward()之前被改变了,那么就会报下列的错误。

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation

第四点:时刻记住自己所要优化的参数,待求导的数据是什么。我们围绕网络来讨论。

输入数据为x,假设网络输出为f(x;theta),那么theta就是我们需要去优化的参数。学习率实际上起什么用?学习率就是让theta中的每个数按学习率下降。这点,如果不相信,可以使用

for params in model.named_parameters():
    print(params[0],params[1])

查看一下thera究竟是怎么变化的。

在明白了学习率之后,我们再看看需要求导的或是希望期望最大化的数据到底是什么。

我们所期望的是使\frac{\partial f(x;\theta)}{\partial x} = 0,在这点上,我们应该就能理解,所需求导的数据是theta了吧。从另一个角度来说,对数据求导本身也没有任何意义。在这点上,我们可以将网络看做是一个隐函数,只需要知道它可以得到近似解就可以了(因为机器学习就是为了求最优解的近似解,谁的近似解更接近于最优解,那么谁的这个模型就更好,具体表现在各指标变高这点上)。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值