ReLTanh激活函数(自适应激活函数)

ReLTanh激活函数

文章链接:ReLTanh : An activation function with vanishing gradient resistance for SAE-based DNNs and its application to rotating machinery fault diagnosis

年份:2019

简介

Tanh是一个存在梯度消失问题的饱和激活函数,由此提出了ReLU激活函数,但克服梯度消失问题的同时也带来了偏置偏移和噪声敏感问题,由此在Tanh的基础上,提出了一种新的激活函数,称为修正线性Tanh(ReLTanh)激活函数。ReLTanh用两条直线替代Tanh在正、负不活跃区域的饱和波形,直线的斜率是两个可学习的参数,线性部分有助于缓解消失梯度问题。具体的函数公式为:
f ( x ) = { T a n h ′ ( λ + ) ( x − λ + ) + T a n h ( λ + ) , x ≥ λ + T a n h ( x ) , λ − < x < λ + T a n h ′ ( λ − ) ( x − λ − ) + T a n h ( λ − ) , x ≤ λ − , λ l o w e r + ≤ λ + ≤ λ u p p e r + , λ l o w e r − ≤ λ − ≤ λ u p p e r − \begin{aligned}f(x) = \begin{cases} Tanh^{\prime}(\lambda^+)(x-\lambda^+)+Tanh(\lambda^+), &x\ge \lambda^+\\ Tanh(x), &\lambda^-<x<\lambda^+\\Tanh^{\prime}(\lambda^-)(x-\lambda^-)+Tanh(\lambda^-), &x\le \lambda^-\\\end{cases},\lambda^+_{lower}\le \lambda^+\le\lambda^+_{upper},\lambda^-_{lower}\le \lambda^-\le\lambda^-_{upper}\end{aligned} f(x)=Tanh(λ+)(xλ+)+Tanh(λ+),Tanh(x),Tanh(λ)(xλ)+Tanh(λ),xλ+λ<x<λ+xλ,λlower+λ+λupper+,λlowerλλupper
其中 T a n h ′ ( x ) = 4 ( e x + e − x ) 2 Tanh^\prime(x) = \frac{4}{(e^x+e^{-x})^2} Tanh(x)=(ex+ex)24
T a n h ′ ( x ) Tanh^\prime(x) Tanh(x)的图像如下图
在这里插入图片描述

λ + \lambda^+ λ+ λ − \lambda^- λ分别是决定直线起始位置和斜率的正阈值和负阈值。而且 λ + \lambda^+ λ+ λ − \lambda^- λ都需要训练得到的。值得注意的是, λ + \lambda^+ λ+ λ − \lambda^- λ都有额外的极限条件,因为它们主要用来约束斜率的可学习范围,避免不合理的波形,保证梯度不会消失。根据经验:
0 ≤ λ + ≤ 0.5 0\le \lambda^+ \le 0.5 0λ+0.5 λ − ≤ − 1.5 \lambda^- \le -1.5 λ1.5

ReLTanh对输入x的导数为:
R e L T a n h ′ ( x ) = { T a n h ′ ( λ + ) , x ≥ λ + T a n h ′ ( x ) , λ − < x < λ + T a n h ′ ( λ − ) , x ≤ λ − ReLTanh^\prime(x) = \begin{cases} Tanh^{\prime }(\lambda^+), &x\ge \lambda^+\\ Tanh^{\prime}(x), &\lambda^- <x<\lambda^+\\ Tanh^{\prime }(\lambda^-), & x\le \lambda^-\end{cases} ReLTanh(x)=Tanh(λ+),Tanh(x),Tanh(λ),xλ+λ<x<λ+xλ
其中 T a n h ′ ′ ( x ) = 8 ( e − 2 x − e 2 x ) ( e x + e − x ) 4 Tanh^{\prime \prime}(x) = 8\frac{(e^{-2x}-e^{2x})}{(e^x+e^{-x})^4} Tanh(x)=8(ex+ex)4(e2xe2x)
原文中有许多错误,ReLTanh的导数不是Tanh的二次导数,而是一次导数。
T a n h ′ ′ ( x ) Tanh^{\prime \prime}(x) Tanh(x)的图像如下图
在这里插入图片描述
当固定参数 λ + \lambda^+ λ+,变化 λ − \lambda^- λ的ReLTanh的图像如下:
在这里插入图片描述
当固定参数 λ − \lambda^- λ,变化 λ + \lambda^+ λ+的ReLTanh的图像如下:
在这里插入图片描述
当固定参数 λ + \lambda^+ λ+,变化 λ − \lambda^- λ的ReLTanh的导数图像如下:
在这里插入图片描述
当固定参数 λ − \lambda^- λ,变化 λ + \lambda^+ λ+的ReLTanh的导数图像如下:
在这里插入图片描述

参数分析

  • 参数 λ + \lambda^+ λ+控制着正区域曲线的斜率, λ + \lambda^+ λ+越大,斜率越小。
  • 参数 λ − \lambda^- λ控制着负区域曲线的斜率, λ − \lambda^- λ越大,斜率越大。
  • λ + = 0 \lambda^+=0 λ+=0时,ReLTanh正区域的斜率为1,与ReLU正区域很是相似。
  • λ − = − ∞ \lambda^-=-\infty λ=时,ReLTanh负区域的斜率为0,与ReLU负区域很是相似。

分析

以下四点是论文中提到的优点:

  • 与Tanh相比,ReLTanh具有更好的导数性能,可以像ReLU族那样减小梯度消失问题。
  • 对于平均激活,ReLTanh的输出更接近于零,因此其受偏置偏移的影响比ReLU家族小。ReLTanh的偏置偏移影响较小,可以加快和平滑训练过程。
  • 可学习阈值的优势有助于ReLTanh更接近全局最小值。ReLTanh的波形与ELU相似,但ReLTanh的性能优于ELU,这不仅是因为ReLTanh可以更新阈值来帮助搜索代价函数的最小值,而且ELU在负区间仍然存在梯度消失问题。
  • 在一定程度上,ReLTanh对噪声和异常输入具有更强的鲁棒性。

缺点也很明显:

  • 梯度的计算涉及到指数的幂运算,因此训练时间较长。
  • λ + \lambda^+ λ+只有等于0时,ReLTanh的正区域才接近 x x x恒等映射,而如果 λ + > 0 \lambda^+>0 λ+>0,ReLTanh的正区域小于 x x x恒等映射,这样导致网络不稳定,梯度不容易回传。
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值