一、sigmod
1.函数与图像:[0,1]
2.优缺点:
优点:输出映射在[0,1]之间;求导容易;无限阶可导。
缺点:容易产生梯度消失的问题;输出不是以0为中心(这个特性会导致为在后面神经网络的高层处理中收到不是零中心的数据。这将导致梯度下降时的晃动,因为如果数据到了神经元永远时正数时,反向传播时权值w就会全为正数或者负数。这将导致梯度下降不希望遇到的锯齿形晃动)。(参考https://blog.csdn.net/nuannuanyingying/article/details/70064353)
二、tanh
1.函数与图像:[-1,+1]
2.优缺点:
优点:和sigmoid相比收敛速度快;
缺点:容易梯度消失;
三、RELU
1.函数与图像:[0,+∞]
f(x ) = max(0,x) 即 if x>=0 时 f(x) = x,否则f(x) = 0
2.优缺点:
优点:收敛快;解决梯度消失问题;提供了神经网络的稀疏表达能力;
缺点:随着训练的进行,可能会出现神经元死亡,权重无法更新的情况;(可用小的负梯度如0.01等代替0)
四、softmax
1.函数与图像:
2.一些问题:
为什么要取指数?
第一个原因是要模拟 max 的行为,所以要让大的更大。第二个原因是需要一个可导的函数。
五、一些问题
1.为什么要用激活函数?
答:如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。
如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。
2.互相比较:
sigmod与softmax:
sigmod做二分类,softmax做k分类的概率值;二分类问题时 sigmoid 和 softmax 是一样的,求的都是 cross entropy loss,而 softmax 可以用于多分类问题,softmax是sigmoid的扩展;softmax建模使用的分布是多项式分布,而logistic则基于伯努利分布。