激活函数的目的是为了使得,线性的输入数据变成非线性的,因为我们现实中的数据肯定是多维度的,多特征的,那么肯定不是线性的。所以我们用激活函数使其非线性化。
一般激活函数常用的有2种,relu用在中间的激活函数,还有一个是softmax一般放在最后,作为预测分类函数。
1.
relu 的X的负轴时,y为0 。使得神经网络是稀疏矩阵,相当于dropout,可以防过拟合。
relu 的x的正轴时,y=X.反向传播时候收敛速度快,且求导好求,梯度即偏导数为1.
所以relu一般放在中间做激活函数。
2.
softmax一般放在最后一层的全卷积网络后面,才是激活函数,也是使其非线性化,用来预测分类用的。它的特点是坐标轴(0,0.5)关于x轴对称(它是signmoid的衍生函数),y值在0-1之间,很好可以用来预测为真的概率。但是有个缺点就是,当x处于正或负无穷大的时候,斜率几乎为0,即梯度(斜率的别称)为0,这时候就会导致梯度消失,所以频繁放在中间作为激活函数的时候就会明显的梯度消失问题,所以中间的激活函数用relu较常见,还有一个缺点就是,bp反向传播,即梯度下降算法需要链式求导法则,softmax求导是比较麻烦的,