ReLTanh激活函数(自适应激活函数)

最新推荐文章于 2023-04-29 15:54:36 发布

皮鼓坐凳子

最新推荐文章于 2023-04-29 15:54:36 发布

阅读量615

点赞数 2

分类专栏：激活函数大全文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_38190702/article/details/125509989

版权

激活函数大全专栏收录该内容

32 篇文章 0 订阅

订阅专栏

ReLTanh激活函数

文章链接：ReLTanh : An activation function with vanishing gradient resistance for SAE-based DNNs and its application to rotating machinery fault diagnosis

年份：2019

简介

Tanh是一个存在梯度消失问题的饱和激活函数，由此提出了ReLU激活函数，但克服梯度消失问题的同时也带来了偏置偏移和噪声敏感问题，由此在Tanh的基础上，提出了一种新的激活函数，称为修正线性Tanh(ReLTanh)激活函数。ReLTanh用两条直线替代Tanh在正、负不活跃区域的饱和波形，直线的斜率是两个可学习的参数，线性部分有助于缓解消失梯度问题。具体的函数公式为：
$\begin{aligned}f(x) = \begin{cases} Tanh^{\prime}(\lambda^+)(x-\lambda^+)+Tanh(\lambda^+), &x\ge \lambda^+\\ Tanh(x), &\lambda^-<x<\lambda^+\\Tanh^{\prime}(\lambda^-)(x-\lambda^-)+Tanh(\lambda^-), &x\le \lambda^-\\\end{cases},\lambda^+_{lower}\le \lambda^+\le\lambda^+_{upper},\lambda^-_{lower}\le \lambda^-\le\lambda^-_{upper}\end{aligned}$
其中 $Tanh^\prime(x) = \frac{4}{(e^x+e^{-x})^2}$
$Tanh^\prime(x)$ 的图像如下图
在这里插入图片描述

$\lambda^+$ 和 $\lambda^-$ 分别是决定直线起始位置和斜率的正阈值和负阈值。而且 $\lambda^+$ 和 $\lambda^-$ 都需要训练得到的。值得注意的是， $\lambda^+$ 和 $\lambda^-$ 都有额外的极限条件，因为它们主要用来约束斜率的可学习范围，避免不合理的波形，保证梯度不会消失。根据经验:
$0\le \lambda^+ \le 0.5$ 和 $\lambda^- \le -1.5$

ReLTanh对输入x的导数为：
$ReLTanh^\prime(x) = \begin{cases} Tanh^{\prime }(\lambda^+), &x\ge \lambda^+\\ Tanh^{\prime}(x), &\lambda^- <x<\lambda^+\\ Tanh^{\prime }(\lambda^-), & x\le \lambda^-\end{cases}$
其中 $Tanh^{\prime \prime}(x) = 8\frac{(e^{-2x}-e^{2x})}{(e^x+e^{-x})^4}$
原文中有许多错误，ReLTanh的导数不是Tanh的二次导数，而是一次导数。
$Tanh^{\prime \prime}(x)$ 的图像如下图
在这里插入图片描述
当固定参数 $\lambda^+$ ，变化 $\lambda^-$ 的ReLTanh的图像如下：

当固定参数 $\lambda^-$ ，变化 $\lambda^+$ 的ReLTanh的图像如下：

当固定参数 $\lambda^+$ ，变化 $\lambda^-$ 的ReLTanh的导数图像如下：

当固定参数 $\lambda^-$ ，变化 $\lambda^+$ 的ReLTanh的导数图像如下：
在这里插入图片描述

参数分析

参数 $\lambda^+$ 控制着正区域曲线的斜率， $\lambda^+$ 越大，斜率越小。
参数 $\lambda^-$ 控制着负区域曲线的斜率， $\lambda^-$ 越大，斜率越大。
当 $\lambda^+=0$ 时，ReLTanh正区域的斜率为1，与ReLU正区域很是相似。
当 $\lambda^-=-\infty$ 时，ReLTanh负区域的斜率为0，与ReLU负区域很是相似。

分析

以下四点是论文中提到的优点：

与Tanh相比，ReLTanh具有更好的导数性能，可以像ReLU族那样减小梯度消失问题。
对于平均激活，ReLTanh的输出更接近于零，因此其受偏置偏移的影响比ReLU家族小。ReLTanh的偏置偏移影响较小，可以加快和平滑训练过程。
可学习阈值的优势有助于ReLTanh更接近全局最小值。ReLTanh的波形与ELU相似，但ReLTanh的性能优于ELU，这不仅是因为ReLTanh可以更新阈值来帮助搜索代价函数的最小值，而且ELU在负区间仍然存在梯度消失问题。
在一定程度上，ReLTanh对噪声和异常输入具有更强的鲁棒性。

缺点也很明显：