在深度网络中激活函数的作用:
引入非线性。提升网络的表达能力
激活函数的对比
Sigmoid:
sigmoid的计算量大(相比Relu),反向传播容易出现梯度消失,输出均大于0,使得输出均值不为0,出现偏移现象。
tanh:
双曲正切计算量更大,依然有软饱和性;
Relu:
收敛速度比sigmoid和tanh快很多(差值更大导致loss更大),缺点是输出会落入赢饱和区,影响网络收敛区。
Lekyrelu:
解决relu死亡神经元的问题。.
Softmax:参考;https://blog.csdn.net/u011684265/article/details/78039280
就是如果某一个 zj 大过其他 z, 那这个映射的分量就逼近于 1,其他就逼近于 0,主要应用就是多分类。
为什么要取指数:
第一个原因是要模拟 max 的行为,所以要让大的更大。
第二个原因是需要一个可导的函数。