激活函数的选择,sigmoid/tanh/ReLU的比较

原文: https://www.cnblogs.com/makefile/p/activation-function.html#undefined © 康行天下(只摘取部分内容)

激活函数选择

  1. 首先尝试ReLU,速度快,但要注意训练的状态.
  2. 如果ReLU效果欠佳,尝试Leaky ReLU或Maxout等变种。
  3. 尝试tanh正切函数(以零点为中心,零点处梯度为1)
  4. sigmoid/tanh在RNN(LSTM、注意力机制等)结构中有所应用,作为门控或者概率值.
  5. 在浅层神经网络中,如不超过4层的,可选择使用多种激励函数,没有太大的影响

激活函数的作用

  1. 加入非线性因素
  2. 充分组合特征

下面说明一下为什么有组合特征的作用.

一般函数都可以通过泰勒展开式来近似计算, 如sigmoid激活函数中的指数项可以通过如下的泰勒展开来近似计算:

                                                
其中有平方项,立方项及更更高项, 而 z=wx+bz=wx+b, 因此可以看作是输入特征 x 的组合. 以前需要由领域专家知识进行特征组合,现在激活函数能起到一种类似特征组合的作用. (思想来源: 微博@算法组)

ReLU(Rectified Linear Unit,修正线性单元)

为什么ReLU,Maxout等能够提供网络的非线性建模能力?它们看起来是分段线性函数,然而并不满足完整的线性要求:加法f(x+y)=f(x)+f(y)和乘法f(ax)=a×f(x)或者写作f(αx1+βx2)=αf(x1)+βf(x2)f(αx1+βx2)=αf(x1)+βf(x2)。非线性意味着得到的输出不可能由输入的线性组合重新得到(重现)。假如网络中不使用非线性激活函数,那么这个网络可以被一个单层感知器代替得到相同的输出,因为线性层加起来后还是线性的,可以被另一个线性函数替代。

ReLU的稀疏性(摘自这里):

当前,深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据(以自然数据为主)中通常缠绕着高度密集的特征。然而,如果能够解开特征间缠绕的复杂关系,转换为稀疏特征,那么特征就有了鲁棒性(去掉了无关的噪声)。稀疏特征并不需要网络具有很强的处理线性不可分机制。那么在深度网络中,对非线性的依赖程度就可以缩一缩。一旦神经元与神经元之间改为线性激活,网络的非线性部分仅仅来自于神经元部分选择性激活。
对比大脑工作的95%稀疏性来看,现有的计算神经网络和生物神经网络还是有很大差距的。庆幸的是,ReLu只有负值才会被稀疏掉,即引入的稀疏性是可以训练调节的,是动态变化的。只要进行梯度训练,网络可以向误差减少的方向,自动调控稀疏比率,保证激活链上存在着合理数量的非零值。

ReLU 缺点

  • 坏死: ReLU 强制的稀疏处理会减少模型的有效容量(即特征屏蔽太多,导致模型无法学习到有效特征)。由于ReLU在x < 0时梯度为0,这样就导致负的梯度在这个ReLU被置零,而且这个神经元有可能再也不会被任何数据激活,称为神经元“坏死”。
  • 无负值: ReLU和sigmoid的一个相同点是结果是正值,没有负值.

sigmoid作激活函数的优缺点

历史上很流行(Historically popular since they have nice interpretation as a saturating “firing rate” of a neuron),梯度计算较为方便:

                             

优势是能够控制数值的幅度,在深层网络中可以保持数据幅度不会出现大的变化;而ReLU不会对数据的幅度做约束.

存在三个问题:

  1. 饱和的神经元会"杀死"梯度,指离中心点较远的x处的导数接近于0,停止反向传播的学习过程.
  2. sigmoid的输出不是以0为中心,而是0.5,这样在求权重w的梯度时,梯度总是正或负的.
  3. 指数计算耗时

为什么tanh相比sigmoid收敛更快:

  1. 梯度消失问题程度
    tanh′(x)=1−tanh(x)2∈(0,1)tanh′⁡(x)=1−tanh⁡(x)2∈(0,1)
    sigmoid: s′(x)=s(x)×(1−s(x))∈(0,1/4)sigmoid: s′(x)=s(x)×(1−s(x))∈(0,1/4)
    可以看出tanh(x)的梯度消失问题比sigmoid要轻.梯度如果过早消失,收敛速度较慢.
  2. 以零为中心的影响
    如果当前参数(w0,w1)的最佳优化方向是(+d0, -d1),则根据反向传播计算公式,我们希望 x0 和 x1 符号相反。但是如果上一级神经元采用 Sigmoid 函数作为激活函数,sigmoid不以0为中心,输出值恒为正,那么我们无法进行最快的参数更新,而是走 Z 字形逼近最优解。

梯度消失与梯度爆炸

梯度消失/爆炸原因及解决办法

原因,浅层的梯度计算需要后面各层的权重及激活函数导数的乘积,因此可能出现前层比后层的学习率小(vanishing gradient)或大(exploding)的问题,所以具有不稳定性.那么如何解决呢?

需要考虑几个方面:

  • 权重初始化
    使用合适的方式初始化权重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式.
  • 激活函数选择
    激活函数要选择ReLU等梯度累乘稳定的.
  • 学习率
    一种训练优化方式是对输入做白化操作(包括正规化和去相关), 目的是可以选择更大的学习率. 现代深度学习网络中常使用Batch Normalization(包括正规化步骤,但不含去相关). (All you need is a good init. If you can't find the good init, use Batch Normalization.)

由于梯度的公式包含每层激励的导数以及权重的乘积,因此让中间层的乘积约等于1即可.但是sigmoid这种函数的导数值又与权重有关系(最大值1/4,两边对称下降),所以含有sigmoid的神经网络不容易解决,输出层的activation大部分饱和,因此不建议使用sigmoid.
ReLU在自变量大于0时导数为1,小于0时导数为0,因此可以解决上述问题.

梯度爆炸
由于sigmoid,ReLU等函数的梯度都在[0,1]以内,所以不会引发梯度爆炸问题。 而梯度爆炸需要采用梯度裁剪、BN、设置较小学习率等方式解决。

 

 

 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以回答这个问题。以下是一个5层全连接网络的示例,其中激励函数使用ReLU,损失函数为均方误差(MSE),反向传播过程使用手动计算梯度的方法实现: ``` import numpy as np # 定义激励函数ReLU def ReLU(x): return np.maximum(, x) # 定义损失函数MSE def MSE(y_pred, y_true): return np.mean((y_pred - y_true) ** 2) # 定义反向传播函数 def backward(x, y_pred, y_true, lr): # 计算输出层的误差 delta = 2 * (y_pred - y_true) # 更新输出层的权重和偏置 W5 -= lr * np.dot(h4.T, delta) b5 -= lr * np.sum(delta, axis=, keepdims=True) # 计算第4层的误差 delta = np.dot(delta, W5.T) * (h4 > ) # 更新第4层的权重和偏置 W4 -= lr * np.dot(h3.T, delta) b4 -= lr * np.sum(delta, axis=, keepdims=True) # 计算第3层的误差 delta = np.dot(delta, W4.T) * (h3 > ) # 更新第3层的权重和偏置 W3 -= lr * np.dot(h2.T, delta) b3 -= lr * np.sum(delta, axis=, keepdims=True) # 计算第2层的误差 delta = np.dot(delta, W3.T) * (h2 > ) # 更新第2层的权重和偏置 W2 -= lr * np.dot(h1.T, delta) b2 -= lr * np.sum(delta, axis=, keepdims=True) # 计算第1层的误差 delta = np.dot(delta, W2.T) * (h1 > ) # 更新第1层的权重和偏置 W1 -= lr * np.dot(x.T, delta) b1 -= lr * np.sum(delta, axis=, keepdims=True) # 初始化权重和偏置 W1 = np.random.randn(1, 10) b1 = np.zeros((1, 10)) W2 = np.random.randn(10, 20) b2 = np.zeros((1, 20)) W3 = np.random.randn(20, 30) b3 = np.zeros((1, 30)) W4 = np.random.randn(30, 40) b4 = np.zeros((1, 40)) W5 = np.random.randn(40, 1) b5 = np.zeros((1, 1)) # 训练模型 lr = .01 for i in range(10000): # 生成随机数据 x = np.random.randn(100, 1) y_true = x ** 2 + 2 * x - 3 # 前向传播 h1 = ReLU(np.dot(x, W1) + b1) h2 = ReLU(np.dot(h1, W2) + b2) h3 = ReLU(np.dot(h2, W3) + b3) h4 = ReLU(np.dot(h3, W4) + b4) y_pred = np.dot(h4, W5) + b5 # 计算损失函数 loss = MSE(y_pred, y_true) # 反向传播 backward(x, y_pred, y_true, lr) # 打印损失函数 if i % 100 == : print('Iteration %d, loss = %f' % (i, loss)) # 测试模型 x_test = np.linspace(-5, 5, 100).reshape(-1, 1) y_test = x_test ** 2 + 2 * x_test - 3 h1 = ReLU(np.dot(x_test, W1) + b1) h2 = ReLU(np.dot(h1, W2) + b2) h3 = ReLU(np.dot(h2, W3) + b3) h4 = ReLU(np.dot(h3, W4) + b4) y_pred = np.dot(h4, W5) + b5 print('Test loss = %f' % MSE(y_pred, y_test)) ``` 这个网络可以实现目标函数 y=x^2+2x-3 的拟合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值