pytorch自动求导系统autograd解析

最新推荐文章于 2024-04-20 18:32:14 发布

senbinyu

最新推荐文章于 2024-04-20 18:32:14 发布

阅读量555

点赞数

分类专栏： pytorch 文章标签： pytorch 求导 autograd backward 梯度累加

本文链接：https://blog.csdn.net/senbinyu/article/details/102634144

版权

pytorch 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

1 自动求导autograd简介

本文阅读时长大约5分钟。

机器学习及深度学习中，梯度求导这个操作无处不在，pytorch为了使用方便，将梯度求导的方法包含在torch.autograd类中。

2 一般的梯度求解 torch.autograd.grad()

在一般的梯度求解中，使用其中的 torch.autograd.grad(y,x,retain_graph)，表示求y对x的偏导，具体代码如下：

    x = torch.tensor([3.], requires_grad=True)
    y = torch.pow(x, 2)     # y = x**2

    grad_1 = torch.autograd.grad(y, x, create_graph=True)   # grad_1 = dy/dx = 2x = 2 * 3 = 6
    print(grad_1)

    grad_2 = torch.autograd.grad(grad_1[0], x)              # grad_2 = d(dy/dx)/dx = d(2x)/dx = 2
    print(grad_2)

结果即为：

(tensor([6.], grad_fn=<MulBackward0>),)
(tensor([2.]),)

3 反向传播方法时的梯度求解torch.autograd.backward()

特殊的，为了适用于模型训练过程中的反向传播算法，torch.autograd.backward(variables, gradient, retain_graph) 经常会被使用。其中variables是被求积分的叶子节点；gradient是对应variable的梯度，仅当variable不是标量且需要求梯度的时候使用；retain_graph是否保存计算图。

下面来看一个片段，解析gradient（多个梯度权重的设置）的作用，

    w = torch.tensor([1.], requires_grad=True)
    x = torch.tensor([2.], requires_grad=True)

    a = torch.add(w, x)     # retain_grad()
    b = torch.add(w, 1)

    y0 = torch.mul(a, b)    # y0 = (x+w) * (w+1)    dy2/dw = 5
    y1 = torch.add(a, b)    # y1 = (x+w) + (w+1)    dy1/dw = 2

    loss = torch.cat([y0, y1], dim=0)       # [y0, y1]
    grad_tensors = torch.tensor([1., 2.])   # 求梯度时是 5*1 + 2*2 = 9，对w求导

    loss.backward(gradient=grad_tensors)    # gradient 传入 torch.autograd.backward()中的grad_tensors

    print(w.grad)

输出结果是：

下面来看另一个片段，解析retain_graph的作用：

    w = torch.tensor([1.], requires_grad=True)
    x = torch.tensor([2.], requires_grad=True)

    a = torch.add(w, x)
    b = torch.add(w, 1)
    y = torch.mul(a, b)

    y.backward(retain_graph=True)
    print(w.grad)
    y.backward()

结果为：

tensor([5.])

若中间的y.backward(retain_graph=False)，则会报错

RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

4 梯度求导的累加，需手动清零

这一点对于pytorch入门来说是必须要熟悉的，pytorch为了获得更大的样本训练容量，梯度是会累加的，如下代码所示：

    w = torch.tensor([1.], requires_grad=True)
    x = torch.tensor([2.], requires_grad=True)

    for i in range(3):
        a = torch.add(w, x)
        b = torch.add(w, 1)
        y = torch.mul(a, b)

        y.backward()
        print(w.grad)

显示结果如下，

tensor([5.])
tensor([10.])
tensor([15.])

所求得的梯度会累加，在上面代码for循环中补上最后一句，w.grad.zero_()，则每次代码都清零，显示结果为：

tensor([5.])
tensor([5.])
tensor([5.])

即回归正常。关于pytorch的梯度采用累加操作，每次迭代一个循环后清零，简单来讲是pytorch特有的，有扩大batchsize的好处及减小内存消耗的好处[2]，具体见参考链接。

参考自：

PyTorch中文文档
https://www.zhihu.com/question/303070254

senbinyu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch自动求导系统autograd解析

1 自动求导autograd简介本文阅读时长大约5分钟。机器学习及深度学习中，梯度求导这个操作无处不在，pytorch为了使用方便，将梯度求导的方法包含在torch.autograd类中。2 一般的梯度求解 torch.autograd.grad()在一般的梯度求解中，使用其中的 torch.autograd.grad(y,x,retain_graph)，表示求y对x的偏导，具体代码如下：...
复制链接

扫一扫