0. 激活函数选用的两个考虑因素:
(1) 饱和问题
如果激活函数的输入值落在饱和区间,梯度值就趋近于0,会发生梯度消失问题
(2)输出值是否关于0对称
输出值如果关于0对称会加快网络收敛,因为可以避免优化的时候走“之字形”路线
以sigmoid为例,详解为什么会走“之字形”路线
sigmoid激活函数公式:
导数:
神经网络前向计算公式:
(L表示损失函数)
反向传播的梯度计算公式:
如果激活函数的输入值落在饱和区间,梯度值就趋近于0,会发生梯度消失问题
输出值如果关于0对称会加快网络收敛,因为可以避免优化的时候走“之字形”路线
以sigmoid为例,详解为什么会走“之字形”路线
sigmoid激活函数公式:
导数:
神经网络前向计算公式:
(L表示损失函数)
反向传播的梯度计算公式: