交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到。
前向传播
假设分类任务类别数是
其中
反向传播
推导过程
根据求导法则有:
其中
下面分两种情况讨论:
- 当
时:
2. 当
Softmax梯度
回顾Softmax函数的形式:
这里也分两种情况讨论:
- 当
时:
2. 当
交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到。
假设分类任务类别数是
其中
根据求导法则有:
其中
下面分两种情况讨论:
2. 当
回顾Softmax函数的形式:
这里也分两种情况讨论:
2. 当