17,18_常见函数梯度,激活函数梯度(Sigmoid、Tanh、ReLu)

本文探讨了深度学习中常见的激活函数,包括Sigmoid、Tanh和ReLU,并详细阐述了它们的导数(梯度),如Sigmoid的导数torch.sigmoid,Tanh的导数torch.tanh,以及ReLU的导数F.relu。理解这些函数的梯度对于优化神经网络的训练至关重要。
摘要由CSDN通过智能技术生成

1. 常见函数梯度

1.1 常见函数

在这里插入图片描述

2. 激活函数及其梯度

2.1 激活函数

在这里插入图片描述

Derivative (倒数)

在这里插入图片描述

Sigmoid / Logistic

在这里插入图片描述

Sigmoid Derivative (求导)

在这里插入图片描述

torch.sigmoid

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
ReLU的优点: 1. 计算速度快:ReLU仅对正数进行操作,不需要进行复杂的计算,因此计算速度比sigmoidtanh快很多。 2. 解决梯度消失问题:在深度神经网络中,梯度消失是一个常见的问题,ReLU可以在一定程度上缓解梯度消失的问题,因为它只有一部分区域的导数是0。 3. 稀疏性:ReLU可以使得神经元输出的结果变得更加稀疏,因为它会将一些负数的输入变成0,这样可以减少神经元之间的相互依赖。 ReLU的局限性: 1. 死亡ReLU问题:当输入为负数时,ReLU的导数为0,这将导致神经元“死亡”,即无法更新权重,影响模型的性能。 2. 非线性可分性限制:ReLU只能处理线性可分问题,无法处理一些非线性可分的问题,如异或问题。 3. 对负数的处理方式不够优秀:ReLU对负数的处理方式是将其变为0,这样可能会导致信息的丢失。 sigmoid的优点: 1. 可以将输出限制在0~1之间,并且输出值可以表示概率。 2. 具有良好的可导性,方便进行反向传播算法更新权重。 3. 在一定程度上可以防止神经元之间的相互依赖。 sigmoid的局限性: 1. 计算量大:sigmoid函数的计算量比ReLUtanh大,因为它需要进行指数运算。 2. 容易出现梯度消失问题,特别是当输入很大或很小的时候,导数可以趋近于0,使得权重更新变得困难。 3. 输出不是零中心化的,这会导致模型的收敛速度变慢。 tanh的优点: 1. 输出值在-1~1之间,可以使得模型的输出更加稳定。 2. 具有良好的可导性,方便进行反向传播算法更新权重。 tanh的局限性: 1. 计算量大:tanh函数的计算量比ReLUsigmoid大,因为它需要进行指数运算。 2. 容易出现梯度消失问题,特别是当输入很大或很小的时候,导数可以趋近于0,使得权重更新变得困难。 3. 输出不是零中心化的,这会导致模型的收敛速度变慢。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

涂作权的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值