当求对每个节点的偏导时,要区分和两种情况。
当时
因为是对求偏导,分子中对求导时,除了项求导结果还是,其它项都是常数,求导结果为0。因此
当时
项对求导结果为0,则
因此
当后面接交叉熵损失函数时
其中是标签,在多分类中,label一般采用one-hot编码,即只有对应的类别值为1,其它类别的值都为0。就是函数的输出,则损失对网络输出的偏导为
其中就是我们上面推导出的的偏导,这里同样分为和两种情况,带入得到
提取公共项
前面提到多分类问题中标签采用one-hot编码,则
则最终结果为
Appendix
因为softmax中采用了指数形式,当比较大时,可能会出现溢出的情况。解决方法是