深度学习--笔记（自动微分）--来自李沐-动手学深度学习

最新推荐文章于 2024-04-20 15:46:15 发布

hitLOGIC

最新推荐文章于 2024-04-20 15:46:15 发布

阅读量99

点赞数

文章标签：深度学习笔记人工智能

本文链接：https://blog.csdn.net/hitLOGIC/article/details/130289259

版权

求导是⼏乎所有深度学习优化算法的关键步骤，深度学习框架通过⾃动计算导数，即⾃动微分（automatic differentiation）来加快求导。实际中，根据设计好的模型，系统会构建⼀个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产⽣输出。⾃动微分使系统能够随后反向传播梯度。这⾥，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

假设我们想对函数y = 2x ⊤x关于列向量x求导。

⾸先，我们创建变量x并为其分配⼀个初始值。

import torch
x = torch.arange(4.0)
x

在我们计算y关于x的梯度之前，需要⼀个地⽅来存储梯度。重要的是，我们不会在每次对⼀个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽。注意，⼀个标量函数关于向量x的梯度是向量，并且与x具有相同的形状。

# 开辟内存区存梯度
x.requires_grad_(True) # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad # 默认值是None

requires_grad: 如果需要为张量计算梯度，则为True，否则为False。我们使用pytorch创建tensor时，可以指定requires_grad为True（默认为False），

grad_fn： grad_fn用来记录变量是怎么来的，方便计算梯度，y = x*3,grad_fn记录了y由x计算的过程。

grad：当执行完了backward()之后，通过x.grad查看x的梯度值。

通过调⽤反向传播函数来⾃动计算y关于x每个分量的梯度，并打印这些梯度。

y.backward()
x.grad

函数y = 2x ⊤x关于x的梯度应为4x。让我们快速验证这个梯度是否计算正确。

结果正确

使⽤⾃动微分的⼀个好处是：即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调⽤），我们仍然可以计算得到的变量的梯度。在下⾯的代码中，while循环的迭代次数和if语句的结果都取决于输⼊a的值。

def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

让我们计算梯度。

a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

我们现在可以分析上⾯定义的f函数。请注意，它在其输⼊a中是分段线性的。换⾔之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输⼊a，因此可以⽤d/a验证梯度是否正确。

hitLOGIC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
深度学习--笔记（自动微分）--来自李沐-动手学深度学习

在我们计算y关于x的梯度之前，需要⼀个地⽅来存储梯度。注意，⼀个标量函数关于向量x的梯度是向量，并且与x具有相同的形状。使⽤⾃动微分的⼀个好处是：即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调⽤），我们仍然可以计算得到的变量的梯度。换⾔之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输⼊a，因此可以⽤d/a验证梯度是否正确。： grad_fn用来记录变量是怎么来的，方便计算梯度，y = x*3,grad_fn记录了y由x计算的过程。
复制链接

扫一扫