计算机视觉教程核心版(四)激活函数_对tanh进行线性化-CSDN博客

本文链接：https://blog.csdn.net/tianzhiya121/article/details/89890379

函数max(0，x)是一个非线性化函数，其作用于输入的每个像素。像这样的非线性化函数有许多，但这个是一个常用的选择，其将所有的输入小于零的值归零，其他不变。如上图，假设输入shape为[1*3072]，最终 $W_{2}$ 的size[100*100],最终我们得到10个类别得分。

非线性函数

每一个输入函数接受一个数字作为输入，并且对数字执行特定的数学操作。这里介绍一些实际中可能也遇到的激活函数。

1、Sigmoid

Sigmoid非线性化压缩输入值域到[0,1]。

sigmoid过去常常被使用，因为它可以被看做神经元的饱和放电率。但如今已经过时了。它主要由两个缺点:

Sigmoid饱和并杀死梯度：sigmoid函数一个非常不理想的特性。当神经元饱和要么在0，要么在1，梯度在这些区域近乎为零。反向传播过程，本地梯度将会乘以门控输出梯度。因此，如果本地梯度非常小，它将会杀死梯度并且几乎没有更新权重信号能够流动在神经网络。例如初始权重太大，神经元将会饱和，神经网络很难学习到有用信息。如下图

当x=-10输出为0，则本体梯度可以计算为0，则最终梯度几乎为零。由此，此节点之后，更多节点梯度将被其杀死。x=10同理

sigmoid输出非零中心zero-centered。zero-centered指的是数据有正有负,以零为中心分布。（数据处理中常常用减去均值的办法，使得每个数据达到zero-centered）对于sigmoid函数，在误差反向传播的过程中，我们可以得到其导数：

$\frac{\partial L}{\partial w}=\frac{\partial L}{\partial x} * \frac{\partial g}{\partial x}$

$\frac{\partial g}{\partial x}=x,\frac{\partial L}{\partial x}=g*(1-g)>0$ ，则 $\frac{\partial L}{\partial x}$ 的符号与输入保持一致。假设现在有w1、w2，为了达到最优的参数，当前的权值需要增大、减小，然而因为输入全为正值或者负值，导致二者更新方向总是同时增大或者同时减小，优化过程将会变为zig--zag过程。如下图