Pytorch自动求导机制、自定义激活函数和梯度

最新推荐文章于 2024-05-12 17:08:47 发布

小菜学AI

最新推荐文章于 2024-05-12 17:08:47 发布

阅读量2k

点赞数 4

分类专栏：基础相关文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/water20210101/article/details/116370853

版权

基础相关专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Pytorch自动求导机制、自定义激活函数和梯度

文章目录

Pytorch自动求导机制、自定义激活函数和梯度
前言：
１自动求导机制
２自定义激活函数和梯度

前言：

由于pytorch框架只是提供了正向传播的机制，模块中的参数的梯度是通过自动求导推倒出来的，当我们需要自定义某一个针对张量的一些列操作时候就不够用了。

１自动求导机制

Pytorch会根据计算过程来自动生成动态计算图，然后可以根据动态图的创建过程进行反向传播，计算得到每个节点的梯度直。

1.0 张量本身grad_fn

为了能记录张量的梯度，首先需要在张量创建的时候设置　requires_grad =Ｔrue.

对于pytorch来说，每一个张量都有一个grad_fn方法，这个方法包含着创建该张量的运算的导数信息。本身携带计算图的信息，该方法还有一个next_functions属性，包含链接该张量的其他张量的grad_fn。

1.1 torch.autograd

Pytorch提供了一个专门用来做自动求导的包，torch.autograd.

包含２个重要函数：

1.1.1 torch.autograd.backward

这个函数通过传入根节点张量，以及初始梯度张量，可以计算产生该根节点所对应的叶子节点的梯度。

当张量为标量张量的时候（及只有一个元素的张量）可以部传入初始梯度张量，默认会设置初始梯度张量为１。

当计算梯度张量的时候，原先建立的计算图会自动释放，如果直接再次求导，肯定就会报错。

如果要在反向传播的时候保留计算图，可以设置retain_graph= True.

在自动求导的时候默认是不会建立反向传播图的，如果需要反向传播计算的同时建立和梯度张量相关的计算图，可以设置create_graph=Ture.

另外，对于一个可到的张量，也可以直接调用该张量内部的backward函数来自动求导。

t1=torch.randn(3,3,requires_grad=True)
t2 =t1.pow(2).sum()
#t2对t1张量求导
t2.backward()#反向传播
t1.grad
t2 =t1.pow(2).sum()
t2.backward()#再次反向传播
t1.grad　＃梯度累计
t1.grad.zero_() # 单个张量清零

1.1.2 torch.autograd.grad

在某些情况下，我们并不需要求出当前张量对所有产生该张量的叶子节点的梯度，这时候我们可以使用torch.autograd.grad方法。

该函数有２个参数，第一个参数是计算图的数据结果张量，第二个参数是需要对计算图求导的张量，最后输出的结果是第一个参数对第二个参数的求导结果，这个输出梯度也是会累计的。

要注意的地方：

１、这个函数部会改变叶子节点的grad属性。

２、反向传播求导时，自动释放计算图，如果要保留，可以设置retain_graph= True.

３、如果需要反向传播计算图，可以设置create_graph=Ture.

t1=torch.randn(3,3,requires_grad=True)
t2 =t1.pow(2).sum()
#t2对t1张量求导
torch.autograd.grad(t2,t1)

２自定义激活函数和梯度

前言里说了，仅仅使用模块有时候是不能满足我们需要效果的。我们需要自定义激活函数，在激活函数中定义前向传播和反向传播的代码来实现自己的需求。

2.1 类及方法

Pytorch自定义激活函数继承于torch.autograd.Function,其内部有２个静态方法：forward和backward

class Func(torch.autograd.Function):
    @staticmethod
    def forward(ctx,input):
        return result
    
    @staticmethod
    def backward(ctx,grad_output):
        return grad_output

2.2　实例

Ｑuoc V.Le等人的研究成果中，将Swish激活函数定义为

在这里插入图片描述

可以看到，这个公式还是比较复杂的，如果要生成图，中间有部少计算节点。

有了公式之后，我们可以求出导数函数，这样方便进行反向传播。

有了激活函数和其导数函数，我们就可以来自定义相关激活函数了。

swish =Swish.apply　#获得激活函数
torch.autograd.gradcheck(
swish,torch.randn(
10,requires_grad =Ｔrue,
dtype =torch.double)
)
#测试反向传播，正常返回值为Ｔｒue

class Swish(torch.autograd.Function):
    @staticmethod
    def forward(ctx,input):
        ctx.input =input
        return input*torch.sigmoid(1*input) #假设b=1
     @staticmethod
    def backward(ctx,grad_output):
        ctx.input =input
        tmp = torch.sigmoid(1*input)
        
        return grad_output*(tmp +1 *input*tmp(1-tmp))

2.3 ｔｉｐｓ

在上面代码可以看到，我们记录了前像传播和反向传播的过程，并且在backward方法中实现了数值梯度的方法。

可以通过讲apply方法赋值给一个变量的方法来激活自定义的激活函数。

为了保持梯度精度，我们一般都使用双精度类型为张量数值类型

小菜学AI

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pytorch自动求导机制、自定义激活函数和梯度

Pytorch自动求导机制、自定义激活函数和梯度文章目录Pytorch自动求导机制、自定义激活函数和梯度前言：１自动求导机制1.0 张量本身grad_fn1.1 torch.autograd1.1.1 torch.autograd.backward1.1.2 torch.autograd.grad２自定义激活函数和梯度2.1 类及方法2.2　实例2.3 ｔｉｐｓ前言：由于pytorch框架只是提供了正向传播的机制，模块中的参数的梯度是通过自动求导推倒出来的，当我们需要自定义某一个针对张量的一些列操
复制链接

扫一扫