总结
- 文章来源:CSDN@LawsonAbs
- 本文代码详见我的Github
1 ~
2 问题
2.1 softmax 之后还可以继续梯度更新吗? 理由是什么?
可以的。
理由如下:
可以先写出softmax 的公式:
e
p
i
∑
j
e
p
j
\frac{e^{p_i}}{\sum_j e^{p_j}}
∑jepjepi
2.2 为啥softmax + 交叉熵不会存在类别不平衡问题?
1.实验一
得到的执行结果是:
3. 分析
在计算到 这个score 的时候,就会发现很多值都是相同的,如果后面的value 值倘若再相似,那么就会导致出现大问题(所有计算的结果都是相同的,最后即使不同的句子得到的分类结果也是相同的),比如下面的这个logits.
4. softmax, argmax 等区别与联系
~