机器学习与深度学习 --- 激活函数（未完待续）

最新推荐文章于 2024-03-14 19:20:42 发布

地瓜没有花

最新推荐文章于 2024-03-14 19:20:42 发布

阅读量421

点赞数

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/elephant_my/article/details/115444531

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

激活函数

1. Hard Sigmoid 函数和 Sigmoid 函数的区别
- 1.1 sigmoid函数

1. Hard Sigmoid 函数和 Sigmoid 函数的区别

在这里插入图片描述

1.1 sigmoid函数

表达式如下：
在这里插入图片描述
图像如下：

Sigmoid 非线性激活函数的形式是σ(x)=1/(1+e−x)，其图形如上图左所示。之前我们说过，sigmoid函数输入一个实值的数，然后将其压缩到0~1的范围内。特别地，大的负数被映射成0，大的正数被映射成1。sigmoid function在历史上流行过一段时间因为它能够很好的表达“激活”的意思，未激活就是0，完全饱和的激活则是1。而现在sigmoid已经不怎么常用了，主要是因为它有两个缺点:

Sigmoids saturate and kill gradients.
Sigmoid容易饱和，并且当输入非常大或者非常小的时候，神经元的梯度就接近于0了，从图中可以看出梯度的趋势。这就使得我们在反向传播算法中反向传播接近于0的梯度，导致最终权重基本没什么更新，我们就无法递归地学习到输入数据了。另外，你需要尤其注意参数的初始值来尽量避免saturation的情况。如果你的初始值很大的话，大部分神经元可能都会处在saturation的状态而把gradient kill掉，这会导致网络变的很难学习。
Sigmoid outputs are not zero-centered.
Sigmoid的输出不是0均值的，这是我们不希望的，因为这会导致后层的神经元的输入是非0均值的信号，这会对梯度产生影响：假设后层神经元的输入都为正(e.g. x>0 elementwise in f=wTx+b),那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。
当然了，如果你是按batch去训练，那么每个batch可能得到不同的符号（正或负），那么相加一下这个问题还是可以缓解。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的
kill gradients 问题相比还是要好很多的。

地瓜没有花

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习与深度学习 --- 激活函数（未完待续）

激活函数1. Hard Sigmoid 函数和 Sigmoid 函数的区别1.1 sigmoid函数1. Hard Sigmoid 函数和 Sigmoid 函数的区别1.1 sigmoid函数表达式如下：图像如下：Sigmoid 非线性激活函数的形式是σ(x)=1/(1+e−x)，其图形如上图左所示。之前我们说过，sigmoid函数输入一个实值的数，然后将其压缩到0~1的范围内。特别地，大的负数被映射成0，大的正数被映射成1。sigmoid function在历史上流行过一段时间因为它能够很
复制链接

扫一扫

专栏目录