众所周知,使用sigmoid作为激活函数时如果预测值过大或者过小时会出现梯度接近于0的情况,这样会导致收敛变慢,网络无法学习,但是为什么sigmoid和cross entropy结合起来却不存在这种问题,答案在其反向求导过程,反向求导的过程中cross entropy和sigmoid的导数抵消掉了,消除了梯度弥散的影响
众所周知,使用sigmoid作为激活函数时如果预测值过大或者过小时会出现梯度接近于0的情况,这样会导致收敛变慢,网络无法学习,但是为什么sigmoid和cross entropy结合起来却不存在这种问题,答案在其反向求导过程,反向求导的过程中cross entropy和sigmoid的导数抵消掉了,消除了梯度弥散的影响