【pytorch】Softmax，LogSoftmax，CrossEntropyLoss，NLLLoss，F.cross_entropy， F.binary_cross_entropy傻傻分不清楚？

x66ccff

已于 2023-01-14 19:38:47 修改

阅读量1.2k

点赞数 3

分类专栏： python 机器学习文章标签： pytorch 深度学习

于 2023-01-13 09:30:10 首次发布

本文链接：https://blog.csdn.net/qq_18846849/article/details/128669256

版权

python 同时被 2 个专栏收录

42 篇文章

订阅专栏

机器学习

15 篇文章

订阅专栏

文章讨论了Softmax后接CrossEntropyLoss与LogSoftmax后接NLLLoss在计算上的等价性，以及LogSoftmax在数值稳定性和训练速度上的优势。同时提到了PyTorch中F.cross_entropy和F.binary_cross_entropy的使用场景，前者用于多分类，后者用于二分类，需注意输入概率分布是否已经归一化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一句话：

Softmax 后接 CrossEntropyLoss，
LogSoftmax 后接 NLLLoss
F.cross_entropy 内含 Softmax
F.binary_cross_entropy 不含 Softmax

理由

Softmax 之后，得到预测概率分布 $\red{q_i}$ ，根据交叉熵公式可计算得到和真实分布 $\blue{p_i}$ 之间的损失：
$L_{CE}(\blue{p},\red{q})=-\sum_i{\blue{p_i} \log{\red{q_i}}}$

而 LogSoftmax 之后，得到预测概率分布的对数 $\red{\log{q_i}}$ ，负对数似然损失就是将两个分布按位相乘取反，当我们输入的是 $\red{\log{q_i}}$ 时，得到：
$L_{NL}(\blue{p},\red{\log{q}})=-\sum_i{\blue{p_i} \red{\log{q_i}}}$