激活函数(激励函数)理解总结

  1. 什么是激活函数?
  2. 激活函数的用途(为什么需要激活函数)?
  3. 有哪些激活函数,都有什么性质和特点?
  4. 应用中如何选择合适的激活函数?

什么是激活函数?

首先要了解神经网络的基本模型。
单一神经元模型如下图所示。

在这里插入图片描述

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输出值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。

代码演示:

import numpy as np
import tensorflow as tf

a = np.random.randint(-5, 10, size=20)
print(a)
b = tf.nn.relu(a)
with tf.Session() as sess:
    print(sess.run(b))

代码结果:

在这里插入图片描述
也就是小于0数字给变为了 0。

激励函数作用:

        在神经网络中,激励函数的作用是能够给神经网络加入一些非线性因素,使得神经网络能够更好的解决较为复杂的问题。
      在实际中,每一个神经元就是一个函数,都是线性的,加入激活函数可以让其变为非线性,在真实世界中基本上所有的事务都是非线性的,加入激活函数可以更好的模拟现实事务,可以逼近任何的函数。
      激活活函数是神经网络中非线性的来源,因为如果去掉这些函数,那么整个网络就只剩下线性运算,线性运算的复合还是线性运算的,最终的效果只相当于单层的线性模型.
      它有着画龙点睛的作用。其实实际生物学中的神经传输也是有类似的操作,并不是每一个响应神经元都会进行传递信息,只有当信号强到一定的程度,神经元才会释放神经递质,进行传递信息(高中生物偶!)。

有哪些激活函数,都有什么性质和特点?

1. Sigmoid函数

Sigmoid 是常用的非线性的激活函数,它的数学形式如下:

在这里插入图片描述
Sigmoid的几何图像如下:
在这里插入图片描述

特点:

它能够把输入的连续实值变换为0和1之间的输出,特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1.

缺点:

sigmoid函数曾经被使用的很多,不过近年来,用它的人越来越少了。主要是因为它固有的一些 缺点。
缺点1:在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大。首先来看Sigmoid函数的导数,如下图所示:
在这里插入图片描述
如果我们初始化神经网络的权值为 [0,1] 之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为 (1,+∞)区间内的值,则会出现梯度爆炸情况。

缺点2:Sigmoid 的 output 不是0均值(即zero-centered)。这是不可取的,因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。 产生的一个结果就是:如在这里插入图片描述那么对w求局部梯度则都为正,这样在反向传播的过程中w要么都往正方向更新,要么都往负方向更新,导致有一种捆绑的效果,使得收敛缓慢。 当然了,如果按batch去训练,那么那个batch可能得到不同的信号,所以这个问题还是可以缓解一下的。因此,非0均值这个问题虽然会产生一些不好的影响,不过跟上面提到的梯度消失问题相比还是要好很多的。
缺点3:其解析式中含有幂运算,计算机求解时相对来讲比较耗时。对于规模比较大的深度网络,这会较大地增加训练时间。

2.tanh函数

tanh函数解析式:
在这里插入图片描述

tanh函数及其导数的几何图像如下图:
在这里插入图片描述
tanh读作Hyperbolic Tangent,它解决了Sigmoid函数的不是zero-centered输出问题,然而,梯度消失(gradient vanishing)的问题和幂运算的问题仍然存在。

3.Relu函数

Relu函数的解析式:
在这里插入图片描述
Relu函数及其导数的图像如下图所示:
在这里插入图片描述
ReLU函数其实就是一个取最大值函数,注意这并不是全区间可导的,但是我们可以取sub-gradient,如上图所示。ReLU虽然简单,但却是近几年的重要成果,有以下几大优点:
1) 解决了gradient vanishing问题 (在正区间)
2)计算速度非常快,只需要判断输入是否大于0
3)收敛速度远快于sigmoid和tanh

ReLU也有几个需要特别注意的问题:
1)ReLU的输出不是zero-centered
2)Dead ReLU Problem,指的是某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

尽管存在这两个问题,ReLU目前仍是最常用的activation function,在搭建人工神经网络的时候推荐优先尝试!

应用中如何选择合适的激活函数?

这个问题目前没有确定的方法,凭一些经验吧。
1)深度学习往往需要大量时间来处理大量数据,模型的收敛速度是尤为重要的。所以,总体上来讲,训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。
2)如果使用 ReLU,那么一定要小心设置 learning rate,而且要注意不要让网络出现很多 “dead” 神经元,如果这个问题不好解决,那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
3)最好不要用 sigmoid,你可以试试 tanh,不过可以预期它的效果会比不上 ReLU 和 Maxout.

  • 0
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
一个具有线性激励函数神经网络通常指的是其激活函数为线性函数。线性函数表示为y = cx,其中c为常数,x为输入。对于每个神经元而言,其输出等于输入乘以常数c。这种线性激励函数神经网络中具有以下特点和应用。 首先,线性激励函数具有简单和直观的表达形式,易于理解和计算。由于其输出与输入成正比例关系,因此可以准确地表示输入和输出之间的线性关系。这种特性使得线性激励函数在处理一些简单的问题时非常有效。 其次,线性激励函数在一些特定的任务中具有重要的应用。例如,在线性回归任务中,我们希望通过对输入变量进行线性组合来预测一个连续的输出值。此时,线性激励函数能够准确地模拟输入和输出之间的线性关系,以达到最小化预测误差的目的。 然而,线性激励函数也存在一些限制。由于其输出与输入成线性关系,因此无法表示非线性的复杂关系。这就意味着,线性激励函数无法解决一些复杂的问题,如图像识别、语音处理等任务,因为这些任务中存在大量的非线性特征。 综上所述,线性激励函数在处理简单线性问题和线性回归任务中具有重要的应用。然而,在处理复杂非线性问题时,我们需要使用更为复杂的激励函数,如sigmoid函数、ReLU函数等,以提高神经网络的表达能力和性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python图像识别

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值