Pytorch基础（二）初始自动微分

最新推荐文章于 2024-04-25 18:37:09 发布

Lee森

最新推荐文章于 2024-04-25 18:37:09 发布

阅读量313

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/qq_35813161/article/details/113435082

版权

pytorch 专栏收录该内容

6 篇文章 4 订阅

订阅专栏

torch.tensor是包的核心类，若将其属性.requires_grad设置为True，则会开始跟踪tensor的所有操作，完成计算后，可以调用.backward()来自动计算所有梯度。该张量的梯度将累积到.grad属性中。

如果需要停止tensor历史记录的跟踪，可以调用.detach()，它将其余计算历史记录分离，并防止将来的计算被跟踪。要停止跟踪历史记录(和使用内存），可以将代码块使用with torch.no_grad()包装起来，在评估模型时，这特别有用，因为模型在训练阶段具有requires_grad=True的可训练参数有利于调参，而在评估阶段不需要梯度。还有一个类对于autograd实现非常重要那就是Function。Tensor和Function互相连接并构建一个非循环图，它保存整个完整的计算过程的历史信息。每个张量都有一个.grad_fn属性保存着创建了张量的Function的引用，（如果用户自己创建张量，则g_rad_fn是None）。如果想计算导数，可以调用Tensor.backward()，如果Tensor是标量（即它包含一个元素数据），则不需要指定任何参数backward()，但是如果他有更多元素，则需要指定一个gradient参数来指定张量的形状。

#!/usr/bin/env torch
# -*- coding:utf-8 -*-
# @Time  : 2021/1/30, 14:37
# @Author: Lee
# @File  : auto_grad.py


import torch

# 创建一个张量，设置requires_grad=True来跟踪它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print("x = ", x)
"""
x =  tensor([[1., 1.], [1., 1.]], requires_grad=True)     
"""

# 对该张量做一个操作
y = x + 2
print("y = ", y)
print(y.grad_fn)  # y作为操作的结果被创建，所以它有grad_fn
"""
y =  tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x0000026B0564D220>      
"""

# 针对y做更多的操作
z = y * y * 3
out = z.mean()
print("z = ", z, "\nout = ", out)
"""
z =  tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) 
out =  tensor(27., grad_fn=<MeanBackward0>)
"""

# .requires_grad_(...)会改变张量的requires_grad标记，输入的标记默认为False，
# 如果没有提供相应的参数
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print("a.requires_grad = ", a.requires_grad)
"""
a.requires_grad =  False
"""
a.requires_grad_(True)
print("after True, a.requires_grad = ", a.requires_grad)
"""
after True, a.requires_grad =  True
"""
b = (a * a).sum()
print("b.grad_fn = ", b.grad_fn)
"""
b.grad_fn =  <SumBackward0 object at 0x000001FFFB8AE310>
"""

# 现在向后传播，因为输出包含了一个标量，out.backward()等同于out.backward(torch.tensor(1.))
out.backward()
print("x.grad = ", x.grad)  # 打印梯度d(out)/dx
"""
x.grad =  tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])
"""

# 雅克比向量积
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
    y = y * 2
print("y = ", y)
"""
y =  tensor([ 105.4538, -508.8583, 1537.1407], grad_fn=<MulBackward0>)
"""

# 现在在这种情况下，y不再是一个标量。torch.autograd不能够直接计算整个雅克比，但是如果我们
# 只想要雅克比向量积，只需要简单的传递向量给backward作为参数
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)
print("x.grad = ", x.grad)
"""
x.grad =  tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])
"""

# 可以将代码包裹在with torch.no_grad()，来停止对从跟中历史中的.requires_grad=True的张量自动求导
print(" x.requires_grad = ", x.requires_grad)
print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
with torch.no_grad():
    print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
"""
x.requires_grad = True
(x ** 2).requires_grad = True
(x ** 2).requires_grad = False
"""

以上代码中，需要明白out.backward()，对x求导的结果x.grad = tensor([[4.5000, 4.5000], [4.5000, 4.5000]])是如何得到的。根据代码中的计算过程可知：

$out=\frac{1}{4}\sum_{i}z_{i},z_{i}=3(x_{i}+1)^2 and z_{i}|_{x_{i}=1}=27$

$\frac{\partial {out}}{\partial {x_{i}}}=\frac{3}{2}(x_{i}+2)\rightarrow \frac{\partial {out}}{\partial {x_{i}}}|_{x_{i}=1}=\frac{9}{2}=4.5$
在数学上，如果有 $\vec{y}=f(\vec{x})$ ，那么 $\vec{y}$ 对于 $\vec{x}$ 的导数是一个雅克比矩阵：

$J=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}$

总的来说，torch.autograd是一个对于雅克比矩阵向量积的计算工具。对于任一向量 $v =\begin{bmatrix} v_{1} & v_{2} & \cdots & v_{m} \end{bmatrix}^T$ ，计算向量积 $J\cdot v$ ，如果 $v$ 恰好是一个标量函数 $l=g(\vec{y})$ ，也就是说， $v = \begin{bmatrix} {\frac{\partial l}{\partial {y_{1}}}} & {\cdots } & {\frac{\partial l}{\partial {y_{m}}}} \end{bmatrix}^T$ ，再由链式法则，这个雅克比向量向量积可以被表示成 $l$ 关于 $\vec{x}$ 的梯度：

$J\cdot v=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}\begin{bmatrix} {\frac{\partial {l}}{\partial {y_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {y_{m}}}} \end{bmatrix}=\begin{bmatrix} {\frac{\partial {l}}{\partial {x_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {x_{n}}}} \end{bmatrix}$

Lee森

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Pytorch基础（二）初始自动微分

torch.tensor是包的核心类，若将其属性.requires_grad设置为True，则会开始跟踪tensor的所有操作，完成计算后，可以调用.backward()来自动计算所有梯度。该张量的梯度将累积到.grad属性中。如果需要停止tensor历史记录的跟踪，可以调用.detach()，它将其余计算历史记录分离，并防止将来的计算被跟踪。要停止跟踪历史记录(和使用内存），可以将代码块使用with torch.no_grad()包装起来，在评估模型时，这特别有用，因为模型在训练阶段具有requires
复制链接

扫一扫