Pytorch 自动求梯度（autograd）

最新推荐文章于 2024-04-20 18:32:14 发布

AXiao96

最新推荐文章于 2024-04-20 18:32:14 发布

阅读量901

点赞数

分类专栏： NLP 文章标签：深度学习神经网络机器学习人工智能 python

原文链接：https://zhuanlan.zhihu.com/p/82077506

版权

NLP 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

深度学习其实就是一个最优化问题，找到最小的loss值，因为自变量过多，想要找到最小值非常困难。所以就出现了很多最优化方法，梯度下降就是一个非常典型的例子。本文针对python的pytorch库中的自动求梯度进行了详细的解释

Tensor

pytorch里面的tensor可以用来存储向量或者标量。

torch.tensor(1) # 标量
torch.tensor([1]) # 1*1 的向量

tensor还可以指定数据类型，以及数据存储的位置（可以存在显存里，硬件加速）

torch.tensor([1,2], dtype=torch.float64)

梯度

在数学里，梯度的定义如下：

设三元函数 $u=f(x,y,z)$ 在空间区域G内具有一阶连续偏导数，点 $P(x,y,z) \in G$ ,称向量

为函数 $u=f(x,y,z)$ 在点P的梯度。

可以看出，自变量相对于因变量的每一个偏导乘以相应的单位向量，最后相加，即为最后的梯度向量。

在pytorch里面，我们无法直接定义函数，也无法直接求得梯度向量的表达式。更多的时候，我们其实只是求得了函数的在某一个点处相对于自变量的偏导。

我们先假设一个一元函数：y = x^2 + 3x +1，在pytorch里面，我们假设x = 2, 那么

>>> x = torch.tensor(2, dtype=torch.float64, requires_grad=True)
>>> y = x * x + 3 * x + 1
>>> y.backward()
>>> x.grad
tensor(7., dtype=torch.float64)

可以看出，最后y相对于x的导数在x=2的地方为7。在数学里进行验证，那么就是

y' = 2*x + 3, 当x=2时，y' = 2 * 2 + 3 = 7, 完全符合torch自动求得的梯度值。

接下来计算二元函数时的情况：

>>> x1 = torch.tensor(1.0)
>>> x2 = torch.tensor(2.0, requires_grad=True)
>>> y = 3*x1*x1 + 9 * x2
>>> y.backward()
tensor(6.)
>>> x2.grad
tensor(9.)

可以看出，我们可以求得y相对于x2的偏导数。

以上讨论的都是标量的情况，接下来讨论自变量为向量的情况。

mat1 = torch.tensor([[1,2,3]], dtype=torch.float64, requires_grad=True)
>>> mat2
tensor([[1.],
        [2.],
        [3.]], dtype=torch.float64, requires_grad=True)

mat1是一个1x3的矩阵，mat2是一个3x1的矩阵，他们俩的叉乘为一个1x1的矩阵。在pytorch里面，可以直接对其进行backward，从而求得相对于mat1或者是mat2的梯度值。

>>> y = torch.mm(mat1, mat2)
>>> y.backward()
>>> mat1.grad
tensor([[1., 2., 3.]], dtype=torch.float64)
>>> mat2.grad
tensor([[1.],
        [2.],
        [3.]], dtype=torch.float64)

其实可以把mat1中的每一个元素当成一个自变量，那么相对于mat1的梯度向量，就是分别对3个x进行求偏导。

相当于是y = mat1[0] * mat2[0] + mat1[1] * mat2[1] + mat1[2] * mat2[2]

然后分别求y对于mat1，mat2每个元素的偏导。

另外，如果我们最后输出的是一个N x M 的一个向量，我们要计算这个向量相对于自变量向量的偏导，那么我们就需要在backward函数的参数里传入参数。

如上图所述，其实pytorch的autograd核心就是计算一个 vector-jacobian 乘积， jacobian就是因变量向量相对于自变量向量的偏导组成的矩阵，vector相当于是因变量向量到一个标量的函数的偏导。最后就是标量相对于一个向量的梯度向量。

总结

最后，其实神经网络就是寻求一个拟合函数，但是因为参数过多，所以不得不借助每一点的梯度来一点一点的接近最佳的LOSS值，pytorch拥有动态的计算图，存储记忆对向量的每一个函数操作，最后通过反向传播来计算梯度，这可以说是pytorch的核心。所以深入了解如果利用pytorch进行自动梯度计算非常重要。

AXiao96

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pytorch 自动求梯度（autograd）

深度学习其实就是一个最优化问题，找到最小的loss值，因为自变量过多，想要找到最小值非常困难。所以就出现了很多最优化方法，梯度下降就是一个非常典型的例子。本文针对python的pytorch库中的自动求梯度进行了详细的解释Tensorpytorch里面的tensor可以用来存储向量或者标量。torch.tensor(1) # 标量torch.tensor([1]) # 1*1 的向量tensor还可以指定数据类型，以及数据存储的位置（可以存在显存里，硬件加速）torch.te...
复制链接

扫一扫