1. softmax 函数求导
求导之前我们先了解softmax 函数,softmax一般是用来作为网络的输出层,直接输出概率信息,定义如下:
那么我们对softmax 函数 进行求导,为了简洁把求和里面的一大堆用
简写:
①当 i = j 时:
②当 i ≠ j 时:
2. softmax loss 求导
好了,有了前面这些知识之后我们开始求导。这个函数最要是用来计算分类的loss的,我们训练模型时就要计算loss,再来求导进行反向传播,这也是写本文的目的。先看定义:
公式中log的底数为e,就是ln了;取0或1,表示当训练时
的输出为第i类时,
= 1,为其他类别时
= 0;
对所有像素求导:
我们把这两种情况分开写,得到:
参考资料:
https://blog.csdn.net/grllery/article/details/97788745