梯度
初始化的影响
同样的网络,同样的参数,初始化不同,梯度下降的速度不同,得到最小值也不同,如上图。
学习率的影响
学习率影响收敛的速度,初始情况下可以设置的大一些,不收敛在设置的小一些。
动量
梯度下降的时候,可能到达局部最优的情况,这时候给一个动量,用惯性冲出局部最优的情况。
常见公式求解梯度
激活函数
derivative
特点:在
z
=
0
z = 0
z=0处不可导
Sigmoid Logistic
特点:将
z
z
z从
(
−
∞
(- \infty
(−∞
,
∞
)
, \infty)
,∞)拉回到
(
0
,
1
)
(0,1)
(0,1),且可导
对
w
w
w求导结果也一样。
Tanh
RELU
神经网络中常用,原因在于
z
<
0
,
z<0,
z<0,梯度为0,
z
>
0
,
z>0,
z>0,梯度为1,这样传递的时候梯度变化不大,得到了比较好的保留。
Softmax
用于分类,且保证所有概率相加为1,而使用sigmod相加最大为3
另一个作用是金字塔作用,2/1=3,0.7/0.2=3.5;将差距拉的更大,将小的压缩到更小。
总结
pytorch实现