激活函数

最新推荐文章于 2023-10-26 16:57:18 发布

守望者_

最新推荐文章于 2023-10-26 16:57:18 发布

阅读量504

点赞数

分类专栏：卷积细节文章标签：激活函数 sigmoid

本文链接：https://blog.csdn.net/q1_6_2_what_123/article/details/82937670

版权

卷积细节专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先激活函数肯定非线性连续的。
在这里插入图片描述

一.sigmoid

隐患1：饱和神经元导致梯度消失：

在这里插入图片描述
如果此时输入sigmoid的 $x$ 值为10或者-10等， $x$ 是位于饱和区的数，该位置sigmoid的梯度（斜率）是几乎为0的正数，即在此处 $\frac{\partial \sigma}{\partial x }\approx 0(正)$ ，会使得链式求导法则中上游的梯度 $\frac{\partial L}{\partial \delta}$ 与该层的偏导数 $\frac{\partial \sigma}{\partial x }$ 相乘之后得到一个及其小的数——梯度消失，这样会使得本层训练修正 $w$ 的效果很差，进而传到下一层就更凉凉了。。。
在这里插入图片描述
解决办法：最好使得第一此使用sigmoid层的输入的数据介于0附近（如先归一化，再去均值操作），经过sigmoid输出的数也肯定介于0-1之间的，然后再往后传……也要注意规避这一问题。

隐患2：不是以0为中心的函数

如果神经元的输入 $x$ 都是正数：会导致权值系数的变化趋势很粗糙很不理想（参CS321 p14）
假设 $x$ 由5个变量组成，当前层的神经元的数量是3个，激活层对第 $j$ 个神经元的执行的操作如下：
$\sigma =f(\sum_i^5 w_{j,i}*x_{i}+b_{j})$
令
$a=\sum_i^5 w_{j,i}*x_{i}+b_{j}$
由于sigmoid函数的偏导数恒大于0，所以 $\frac{\partial L}{\partial a}$ 的正负取决于 $\frac{\partial L}{\partial \sigma}$ 的符号，同时梯度 $\frac{\partial a}{\partial w_{j,x}}=x_{i}$ ，如果所有的 $x_{i}$ 的值均为正，则会使得每个权值都朝着同时增大或者减小的方向变换，随着迭代的进行， $w$ 整体(等同于 $w$ 的均值)的变化趋势呈现上升或者下降，但我们并不太关心整体，而需要的是 $w$ 本身里面的每个元素根据训练集做出不同方向的调整。
以标准的DNN网络为例子，假设当前层输入的变量是5个，当前层神经元的数量是3个，则当前层的权值系数是一个3行5列的二维矩阵（ $W X + b$ ）。为了形象说明这个问题的严峻性，我们简化模型，假设模型需要训练的参数只有 $w_{0}$ 和 $w_{1}$ ，假设合理的变化趋势是 $w_{1}$ 下降，而 $w_{0}$ 上升，理想变化趋势如下图绿色线所示（ $w_{1}$ 下降的同时 $w_{0}$ 上升），但是由于 $x$ 的恒大于0的，导致 $w_{0}$ 和 $w_{1}$ 同时上升和下降，很有可能在训练结束，无法收敛到理想位置。
图片来源
图片来自
根本原因就是sigmoid函数不是以0为中心的：
当前激活层的输出是恒大于0的，也就是下一层中，如果对权值系数求导，会出现更新方向一致的问题。
解决办法：激活前的数据去均值，这样就存在 $x_{i}<0$ ,s使得不同的 $w$ 有不同的变化趋势。特别是针对图像数据，因为原始数据均为大于0的数据。