[Pytorch系列-21]：Pytorch基础 - 全自动链式求导backward

最新推荐文章于 2023-05-02 17:43:12 发布

文火冰糖的硅基工坊

最新推荐文章于 2023-05-02 17:43:12 发布

阅读量1.2k

点赞数 5

分类专栏：人工智能-PyTorch 人工智能-深度学习文章标签： pytorch python 深度学习链式求导

本文链接：https://blog.csdn.net/HiWangWenBing/article/details/120298291

版权

人工智能-深度学习同时被 2 个专栏收录

206 篇文章 161 订阅

订阅专栏

人工智能-PyTorch

119 篇文章 188 订阅

订阅专栏

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：[Pytorch系列-21]：Pytorch基础 - 全自动链式求导backward_文火冰糖（王文兵）的博客-CSDN博客

2.2 前向计算数据流图与反向链式求导数据流图

2.3 万能的数值求导的方法

2.4 自动求导关键代码的隐含操作！！！！

第3章 Variable对象的全自动链式求导案例

3.1 定义支持全自动求导的 Variable对象

3.2 一元函数全自动求导

3.3 二元函数全自动求导案例

3.4 梯度的自动累加现象

3.5 梯度的清零操作：data.zero_()

3.6 数据图的手工重选构建

3.7 全自动求导的应用：梯度下降迭代

第4章 Tensor对象的全自动该链式求导拆解

4.1 环境准备

4.2 Variable对象与Tensor对象的统一

第一章 Pytorch自动求导的两种方法

Pytorch有两种方式进行自动求导。

1.1 半自动

这种方法，使用torch的全局函数，需要指定求导的函数以及相应的偏导数对象。

步骤1：y = wx + b

步骤2：dy = torch.autograd.grad(y, [w,b], retain_graph=True)

备注：这种方式获得的梯度，直接通过函数返回，并没有存放到w，b的tensor中。

详见：

[Pytorch系列-20]：Pytorch基础 - Varialbe变量的手工求导和半自动链式求导torch.autograd.grad_文火冰糖（王文兵）的博客-CSDN博客

1.2 全自动

这种方法，使用输出tensor的成员函数，不需要指定偏导数对象，它对函数中所有的表示了requires_grad=True的参数，自动全部求导。

步骤1：y = wx + b

步骤2：y.backward(retain_graph=True)

备注：这种方式获得的梯度，自动存放在w和b的tensor中。

第2章自动求导的基本原理

2.1 自动链式求导的基本原理

2.2 前向计算数据流图与反向链式求导数据流图

2.3 万能的数值求导的方法

[数值计算-19]：万能的任意函数的数值求导数方法_文火冰糖（王文兵）的博客-CSDN博客

2.4 自动求导关键代码的隐含操作！！！！

关键代码1（自动构建计算图）：y = wx + b

自动创建前向传播的动态计算图
自动创建反向传播的动态计算图和上下文

关键代码2（半自动求导）：dy = torch.autograd.grad(y, [w,b], retain_graph=True)

只对计算图中，指定的变量列表[ ] 进行求导
自动求导的最终输出结果，保放在dy中。
自动求导的中间输出结果，保存在y所指定的动态计算图以及自动求导的上下文中。
本次自动求导结束后，如果retain_graph=True，则保留、不释放由y指定的动态计算图以及上下文。
本次自动求导结束后，如果retain_graph=False，自动释放由y指定的动态计算图以及上下文。

关键代码3（全自动求导）：y.backward(retain_graph=True)

对计算图中，标志位requires_grad = True的所有tensor/variable进行搜索并自动求导。
自动求导的最终输出结果，自动保放tensor/variabl各自对应的grad属性中。
自动求导的中间输出结果，保存在y所指定的动态计算图以及自动求导的上下文中。
本次自动求导结束后，如果retain_graph=True，则保留、不释放由y指定的动态计算图以及上下文。
本次自动求导结束后，如果retain_graph=False，自动释放由y指定的动态计算图以及上下文。

第3章 Variable对象的全自动链式求导案例

3.1 定义支持全自动求导的 Variable对象

print("自变量：张量tensor => 自变量值")
x_variable =  Variable(torch.Tensor([0]), requires_grad = True)
print("x_variable =", x_variable)

自变量：张量tensor => 自变量值 x_variable = tensor([0.], requires_grad=True)

3.2 一元函数全自动求导

# 一元函数全自动求导
# 自动求导只能在某一个点,如一元点(x）处一次自动求导，不能对一个点序列进行多次的连续自动求导
print("自变量：张量tensor => 自变量值")
x_variable =  Variable(torch.Tensor([0]), requires_grad = True)
print("x_variable =", x_variable)

print("\n因变量：一元原函数     => 函数值")
y_variable = x_variable ** 2 + 1
print("y_variable =", y_variable)

print("\n因变量：自动求导前     => 导数值")
print("x_variable =", x_variable)
print("x_variable.grad =", x_variable.grad)

print("\n对原函数的所有变量分别自动求偏导（通过系统提供的backward（）成员函数）")
y_variable.backward()  

print("\n因变量：自动求导后     => 导数值 ")
print("x_variable =", x_variable)
print("x_variable.grad =", x_variable.grad)

自变量：张量tensor => 自变量值
x_variable = tensor([0.], requires_grad=True)

因变量：一元原函数     => 函数值
y_variable = tensor([1.], grad_fn=<AddBackward0>)

因变量：自动求导前     => 导数值
x_variable = tensor([0.], requires_grad=True)
x_variable.grad = None

对原函数的所有变量分别自动求偏导（通过系统提供的backward（）成员函数）

因变量：自动求导后     => 导数值 
x_variable = tensor([0.], requires_grad=True)
x_variable.grad = tensor([0.])

3.3 二元函数全自动求导案例

# 二元函数全自动求导
# 自动求导只能在某一个点,如二元点(x1,x2）处一次自动求导，不能对一个点序列进行多次的连续自动求导
print("自变量：张量tensor => 自变量值")
x_variable1 =  Variable(torch.Tensor([-1]), requires_grad = True)
x_variable2 =  Variable(torch.Tensor([1]), requires_grad = True)
print("x_variable1 =", x_variable1)
print("x_variable2 =", x_variable2)

print("\n因变量：二元原函数     => 函数值")
y_variable = x_variable1**2 +  x_variable2**2 + 1
print("y_variable =", y_variable)

print("\n因变量：自动求导前     => 导数值")
print("x_variable1 =", x_variable1)
print("x_variable1.grad =", x_variable1.grad)
print("x_variable2 =", x_variable2)
print("x_variable2.grad =", x_variable2.grad)

print("\n对原函数的所有变量分别自动求偏导（通过系统提供的backward（）成员函数）")
y_variable.backward()  

print("\n因变量：自动求导后     => 导数值 ")
#获取导数值
print("x_variable1 =", x_variable1)
print("x_variable1.grad =", x_variable1.grad)
print("x_variable2 =", x_variable2)
print("x_variable2.grad =", x_variable2.grad)

自变量：张量tensor => 自变量值
x_variable1 = tensor([-1.], requires_grad=True)
x_variable2 = tensor([1.], requires_grad=True)

因变量：二元原函数     => 函数值
y_variable = tensor([3.], grad_fn=<AddBackward0>)

因变量：自动求导前     => 导数值
x_variable1 = tensor([-1.], requires_grad=True)
x_variable1.grad = None
x_variable2 = tensor([1.], requires_grad=True)
x_variable2.grad = None

对原函数的所有变量分别自动求偏导（通过系统提供的backward（）成员函数）

因变量：自动求导后     => 导数值 
x_variable1 = tensor([-1.], requires_grad=True)
x_variable1.grad = tensor([-2.])
x_variable2 = tensor([1.], requires_grad=True)
x_variable2.grad = tensor([2.])

3.4 梯度的自动累加现象

Pytorch全自动求导backward，有一个很奇特的现象：即每一次计算，都会在原有的梯度的基础之上，叠加上最新的导数值，导致每个参数变的梯度值不断的累加，如下所示：

# 梯度自动累加：即使点的位置没有变化，每次计算出来的梯度值是累加的。
x_variable =  Variable(torch.Tensor([1]), requires_grad = True)
print("x_variable =", x_variable)
print("x_variable.grad = ", x_variable.grad)
y_variable = x_variable ** 2 + 1
print("y_variable=", y_variable)

# 自动求导
count = 5
while(count):
    print("\n", count)

    y_variable.backward(retain_graph=True)  
    
    y_variable = x_variable ** 2 + 1
    print("x_variable=", x_variable)
    print("y_variable=", y_variable)
    print("x_variable.grad = ", x_variable.grad)
    
    count = count - 1

x_variable = tensor([1.], requires_grad=True)
x_variable.grad =  None
y_variable= tensor([2.], grad_fn=<AddBackward0>)

 5
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 4
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([4.])

 3
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([6.])

 2
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([8.])

 1
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([10.])

3.5 梯度的清零操作：data.zero_()

在实际使用中，梯度的自动累加功能，并不是我们所期望的，这就需要在每次全自动求导后，

要对梯度进行手工清零：data.zero_()。

# 梯度自动累加 
x_variable =  Variable(torch.Tensor([1]), requires_grad = True)
print("x_variable =", x_variable)
print("x_variable.grad = ", x_variable.grad)
y_variable = x_variable ** 2 + 1
print("y_variable=", y_variable)

# 自动求导
count = 5
while(count):
    print("\n", count)

    y_variable.backward(retain_graph=True)  
    
    y_variable = x_variable ** 2 + 1
    print("x_variable=", x_variable)
    print("y_variable=", y_variable)
    print("x_variable.grad = ", x_variable.grad)
    
    count = count - 1
    
    #清除x_variable以前的梯度值
    x_variable.grad.data.zero_()

x_variable = tensor([1.], requires_grad=True)
x_variable.grad =  None
y_variable= tensor([2.], grad_fn=<AddBackward0>)

 5
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 4
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 3
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 2
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 1
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

3.6 数据图的手工重选构建

在上面的案例中，每次进行全自动求导时，都会设置retain_graph=True，如：

y_variable.backward(retain_graph=True)

设置该标志位的原因是：Pytorch是动态构建数据图，每一次被调用，执行自动求导前，都会重选构建反向求导的数据图和上下文，执行完自动求导后，都会释放相应数据图和上下文。

为了能够进行多次迭代求导，执行万一次自动求导后，需要保留数据图和上下文，这就是这个标志位的作用。但这种方法的缺点是，最后的数据图和上下文需要手工释放。

为了克服上述缺点，也可以有采用另一种方法：

在每次自动求导前，手工构建数据图和上下文，自动求导后，由backward自动释放。

# 重选构建数据图和自动求导的上下文
y_variable = x_variable ** 2 + 1

# 执行自动求导，自动释放自动求导的上下文
y_variable.backward()

其作用与y_variable.backward(retain_graph=True) 是相似的，但程序迭代后，不需要手工释放自动求导的上下文。

详细代码如下：

# 梯度自动累加 
x_variable =  Variable(torch.Tensor([1]), requires_grad = True)
print("x_variable =", x_variable)
print("x_variable.grad = ", x_variable.grad)
y_variable = x_variable ** 2 + 1
print("y_variable=", y_variable)

# 自动求导
count = 5
while(count):
    print("\n", count)
    
    # 重选构建数据图和自动求导的上下文
    y_variable = x_variable ** 2 + 1 
    
    # 执行自动求导，自动释放自动求导的上下文
    y_variable.backward()  
    
    y_variable = x_variable ** 2 + 1
    print("x_variable=", x_variable)
    print("y_variable=", y_variable)
    print("x_variable.grad = ", x_variable.grad)
    
    count = count - 1
    
    #清除x_variable以前的梯度值
    x_variable.grad.data.zero_()

x_variable = tensor([1.], requires_grad=True)
x_variable.grad =  None
y_variable= tensor([2.], grad_fn=<AddBackward0>)

 5
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 4
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 3
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 2
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])

 1
x_variable= tensor([1.], requires_grad=True)
y_variable= tensor([2.], grad_fn=<AddBackward0>)
x_variable.grad =  tensor([2.])