神经网络中激活函数的那些事

本篇博客内容主要来自andrew NG的课程。
我们知道,当我们构建神经网络时,会再神经元上接个激活函数,我们下面详细讨论这个话题。

首先介绍四种激活函数,它们分别是 Sigmoid tanh Relu Leaky_Relu

在这里插入图片描述

  • 上图中右侧的几何图形,从上到下分别对应,我们刚提到的四种激活函数。其中sigmoid最开始用于逻辑回归,我们知道它把输入映射到 0到1之间,我们在选择激活函数时,如果想要输出映射到0-1之间时,比如二分类问题,Lstm中的gate时,可以使用sigmoid,其他情况,基本上tanh都是一个更好的选择, tanh(双曲正切)把输入 映射到-1到1之间 ,它和sigmoid很相似,但选择它做激活函数,通常效果会好很多。
  • 但是这两种激活函数有一个共有的缺点,当输入值很大或很小时,函数的梯度会很小,趋于0,导致训练非常缓慢。
  • 于是便有了Relu 它的函数形式 g ( z ) = m a x ( 0 , z ) g(z) = max(0,z) g(z)=max(0,z),所以经过Relu后输出值都是大于等于0的,在某些情况我们想让输出取非负值时,它是一个很好的选择,同时结合图形我们可以知道,在输入大于0时,它的梯度始终为1,所有进行梯度下降算法时,训练的非常快。
  • 但是relu的左半部分梯度始终为0,虽然不影响我们使用它,但有一种新的激活函数来解决这个问题,Leaky Relu左半部分有一个很小的梯度,使它不为0.
  • 目前业界,使用Relu最为常见,但实际场景,你要多尝试多思考。

为什么要使用激活函数?

我们常说的激活函数,其实叫做非线性激活函数。它的目的是对输入做一次非线性变化。
若不适用非线性激活函数,那么无论你的神经网络叠加多少层,No matter how deep it is. 它始终只是对输入做了一次线性变化,跟只有一层是没有区别的。它只能解决线性问题。
而引入非线性变化,目的是为了增强模型的表达能力,能够拟合线性和非线性的复杂问题。

激活函数的导数

我们在做梯度下降时,要先求出关于每个参数的梯度,下面分别给出这四种激活函数的导数形式
1、 Sigmoid : a ′ = a ( 1 − a ) a' =a(1-a) a=a(1a)
2、tanh : a ′ = 1 − a 2 a' =1-a^2 a=1a2
relu 和 Leaky Relu看下图
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值