sigmoid的优点and缺点:
①处处连续便于求导(对应缺点:求导计算量大,反向传播过程中计算loss值的梯度时还会涉及除法);
②可以将上层传过来的值进行压缩,压缩到[0,1]之间,在网络最后一层加入sigmoid便于我们处理二分类问题(对应缺点:由于当输入值在[-4,4]之间时导数值比较大,其余部分导数值趋于0,很容易出现梯度消失的情况,从而无法实现深层网络的训练)。
根据sigmoid函数的优缺点,我们在实际应用中,仅在二分类问题的最后一层使用sigmoid激活函数进行分类输出。那么问题又来了,这是否代表中间层可以不使用任何激活函数?不行!激活函数是使神经网络变为非线性性的重要手段,实际生活中很少有问题可以用线性函数来很好的分类。一般来说,我们会在中间层使用relu或者修正的relu这种压缩不是特别严重的激活函数,既改变了其线性性,又防止了梯度消失问题。
最后需要说明一下,sigmoid激活函数就是我们所说的logistic函数,它其实就是softmax函数处理多分类问题时,让这个多分类为二分类而已。