激活函数的总结

最新推荐文章于 2024-09-07 14:46:01 发布

ArinaY

最新推荐文章于 2024-09-07 14:46:01 发布

阅读量1.8k

点赞数 2

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/arinay/article/details/126686841

版权

对于各项激活函数的汇总。

激活函数位置：隐藏层。
激活函数的作用：用于引入非线性来学习复杂的模型。
激活函数的类型：一般为非线性（解决回归问题的神经网络模型的输出层中使用线性激活函数），可微的。
常见的激活函数：
1.sigmoid激活函数
将输入规划到（0，1）之间。
阈值为0.5
现如今用的比较少，现在用Relu代替sigmoid。
注意：当我们构建二进制分类器时，输出层必须使用 sigmoid 函数，其中输出被解释为类标签，具体取决于函数返回的输入的概率值。

缺点：

sigmoid 函数存在梯度消失问题。这也称为梯度饱和。
sigmoid 函数收敛慢。
它的输出不是以零为中心的。因此，它使优化过程更加困难。
由于包含了 e^z 项，因此该函数的计算成本很高。
在这里插入图片描述
2.tanh
输出(-1,1)之间。
缺点：（1）梯度消失。（2）含有e，计算难。

3.Relu函数
收敛速度比 sigmoid 和 tanh 函数快。这是因为 ReLU 函数对一个线性分量具有固定导数（斜率），而对另一个线性分量具有零导数。因此，使用 ReLU 函数的学习过程要快得多。
不包含指数项。
4. leaky relu
在这里插入图片描述
6.relu6函数

relu 和relu6的区别是：
relu不限制输出，允许正侧的值非常高；ReLU6 限制为正侧的值 6。

7.softmax
同：都是非线性激活函数
异：softmax 计算一个事件（类）在 K 个不同事件（类）上的概率值。它计算每个类别的概率值。所有概率的总和为 1，这意味着所有事件（类）都是互斥的。
softmax不会在隐藏层出现。

swish激活函数

特点：1.仅出现在隐藏层
2.类似relu激活函数，但是比relu更平滑，这种平滑会更容易让训练收敛。
缺点：Swish 函数计算量很大，因为函数中包含了 e^z 项。改进方法：使用“Hard Swish”。
hard swish

特点：和swish函数曲线相同，但是计算量减少了。
线性激活函数（恒等激活函数）
只有恒等激活函数被认为是线性的。所有其他激活函数都是非线性的。

特点：1.线性激活函数
2.这个函数按原样输出输入值。对输入不做任何更改。