P17 激活函数与Loss 梯度

最新推荐文章于 2024-08-18 11:51:47 发布

明朝百晓生

最新推荐文章于 2024-08-18 11:51:47 发布

阅读量62

点赞数

分类专栏：人工智能文章标签：深度学习算法 Powered by 金山文档

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/129061903

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

文章详细介绍了softmax函数的定义，特别是梯度推导过程，当i=j时的特殊情况，并提供了使用PyTorch进行softmax及反向传播的代码示例。在实践中，确保在调用backward()方法时，输出张量是一个标量。

摘要由CSDN通过智能技术生成

前言

参考 https://www.bilibili.com/video/BV12B4y1k7b5?p=40&vd_source=a624c4a1aea4b867c580cc82f03c1745

这里面重点介绍了一下softmax 定义，梯度求导过程，以及对应的PyTorch code。

一 softMax

1： softMax的梯度推导

1.1 函数定义：

1.2 复合函数求导定义

1.3 推导过程

当 i == j

当 $\text{[math]}$ 时

1.4 结果

二对应代码

# -*- coding: utf-8 -*-
"""
Created on Mon Feb 13 21:28:26 2023

@author: cxf
"""

import torch
import torch.nn.functional as F

def grad():
    
    a = torch.rand(3) #
    a.requires_grad_()
    print("\n a ",a)
    
    p = F.softmax(a,dim=0)
    print("\n p",p)
    
    
    p[0].backward()
    print(a.grad)
    
    

if __name__ == "__main__":
    
    grad()

softmax Backward时候，输出的张量必须是Scaler，size为（1,1）否则会出现如下错误

"grad can be implicitly created only for scalar outputs