均方误差(Mean Square Error, MSE)损失函数:
对求偏导(对求导类似):
交叉熵损失函数:
对求偏导(对求导类似):
ps:以上公式中,激活函数取sigmod激活函数
参数更新过程:
对比公式(2)和(4)可知:
MSE损失函数在参数更新的过程会依赖激活函数的偏导数,当激活函数取sigmod函数的时候,其偏导数在自变量很大或很小的时候为0,使得训练过程中网络参数无更新。
而交叉熵损失函数在参数更新的过程中不依赖激活函数的偏导数,不存在MSE的问题。
均方误差(Mean Square Error, MSE)损失函数:
对求偏导(对求导类似):
交叉熵损失函数:
对求偏导(对求导类似):
ps:以上公式中,激活函数取sigmod激活函数
参数更新过程:
对比公式(2)和(4)可知:
MSE损失函数在参数更新的过程会依赖激活函数的偏导数,当激活函数取sigmod函数的时候,其偏导数在自变量很大或很小的时候为0,使得训练过程中网络参数无更新。
而交叉熵损失函数在参数更新的过程中不依赖激活函数的偏导数,不存在MSE的问题。