如果用交叉熵做损失函数,w的梯度是和当前的预测值与实际值的差有关的,没有受到sigmoid函数导数的影响,且真实值与预测值差别越大,梯度越大,更新的速度也就越快,这正是我们想要的。 如果用的是均方差作为损失函数,求得的梯度受到sigmoid函数导数的影响