激活函数是神经网络中能够产生非线性特质的一个根源,如果没有激活函数的存在,那么整个网络只剩下线性运算,线性运算的复合还仍然线性运算,最终的效果只相当于单层的线性模型。因此,激活函数是拟合一个预期数据分布的关键。
1.sigmoid函数
数学表达式如下:
函数图像如下所示:
特征:
输入:正负均可(图示为-10~+10)
输出(0,1)当输入极大或极小时,可以取到实数0和实数1.
缺点:
1.在深度神经网络中梯度反向传递时导致梯度爆炸或梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大。若初始化神经网络的权值为 [0,1] 之间的随机值,那么梯度在穿过多层后将变得非常小(0~0.25之间),即出现梯度消失现象;当网络权值初始化为 (1,+∞) 区间内的值,则会出现梯度爆炸情况。
2.Sigmoid 的 output 不是0均值(即zero-centered),这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。 产生的一个结果是使得收敛缓慢。 如果按batch去训练,则可以得到不同的信号,这个问题可以缓解一下。因此,非0均值这个问题虽然会产生一些不好的影响,不过比梯度消失问题相比要好一些。
3.解析式中含有幂运算,计算机求解时相对来讲比较耗时。对于规模比较大的深度网络,会较大地增加训练时间。
优点:
平滑、易于求导。
在Python中画sigmoid曲线:
import numpy as np
import matplotlib.pyplot as plt
def sigmoid(x):
return 1.0/(1+np.exp(-x))
sigmoid_inputs=np.arange(-10,10,0.1)
sigmoid_outputs=sigmoid(sigmoid_inputs)
print("Sigmoid Function Input :: {}".format(sigmoid_inputs))
print("Sigmoid Function Output :: {}".format(sigmoid_outputs))
plt.plot(sigmoid_inputs,sigmoid_outputs)
plt.xlabel("Sigmoid Inputs")
plt.ylabel("Sigmoid Outputs")
plt.show()