交叉熵损失（Cross Entropy Loss）计算过程

最新推荐文章于 2025-03-22 22:01:38 发布

手撕机

最新推荐文章于 2025-03-22 22:01:38 发布

阅读量7w

点赞数 31

分类专栏：笔记文章标签：交叉熵损失 Cross Entropy Loss 计算过程为什么

原创文章，未经授权请勿转载。

本文链接：https://blog.csdn.net/guolindonggld/article/details/79250642

版权

笔记专栏收录该内容

33 篇文章

订阅专栏

在机器学习中（特别是分类模型），模型训练时，通常都是使用交叉熵（Cross-Entropy）作为损失进行最小化：

$\sum_{i=1}^{C} p_i log(q_i)$
其中 $C$ 代表类别数。 $p_i$ 为真实， $q_i$ 为预测。

我们以MNIST多分类为例，通常Label会编码为One-Hot，最后一层输出会使用Softmax函数进行概率化输出，如下表所示：

Sample	True	Predicted
	[0, 1, 0, 0, 0, 0, 0, 0, 0, 0]	[0.1, 0.6, 0.3, 0, 0, 0, 0, 0, 0, 0]
	[0, 0, 0, 0, 1, 0, 0, 0, 0, 0]	[0, 0.3, 0.2, 0, 0.5, 0, 0, 0, 0, 0]
	[0, 0, 0, 0, 0, 1, 0, 0, 0, 0]	[0.6, 0.3, 0, 0, 0, 0.1, 0, 0, 0, 0]

对于第一个样本，交叉熵损失为：
$\approx 0.51$

对于第二个样本，交叉熵损失为：
$\approx 0.69$

对于第三个样本，交叉熵损失为：
$\approx 2.30$

平均交叉熵损失为：
$-\frac{(ln(0.6)+ln(0.5)+ln(0.1))}{3} \approx 1.17$

从上面的计算可以知道，预测越准，损失越小。

Scikit-learn中提供了交叉熵损失的计算方法：

from sklearn.metrics import log_loss

true = ['1', '4', '5']
pred=[[0.1, 0.6, 0.3, 0, 0, 0, 0, 0, 0, 0],
      [0, 0.3, 0.2, 0, 0.5, 0, 0, 0, 0, 0],
      [0.6, 0.3, 0, 0, 0, 0.1, 0, 0, 0, 0]]
labels=['0','1','2','3','4','5','6','7','8','9']

log_loss(true, pred, labels)

Out:
1.1688526324400008

为什么训练时采取交叉熵损失，而不用均方误差（Mean Squared Error, MSE）呢？

Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training -> 翻译版

博客等级

码龄13年

人工智能领域新星创作者

135
原创

878
点赞

3811
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

Spark 5篇
TensorFlow 2.0 2篇
TensorFlow 1.0 11篇
Linux 1篇
CentOS 1篇
Keras 1篇
Python 1篇
PyQt5 4篇
Java
推荐系统 4篇
评价指标 2篇
深度学习 1篇
PMML 1篇
基础算法 1篇
GraphX 1篇
运筹 1篇
机器学习 5篇
Hive 1篇
C++
计算机网络
笔记 33篇

最新评论

[高效Mac] 多显示器快速切换鼠标焦点和移动窗口
加油上岸: 谢谢
使用GIZA++进行词对齐
zyxgmlzsj: 对于 list index out of range 错误，提出一种“不靠谱”的解决方案，当出现该错误时，查看grow-diag-final-and文件中生成数据的行数可以确定出现问题的位置。在z2e.A3.final和e2z.A3.final文件中用ctrl+f查找，输入“pair (此处填入grow-diag-final-and中行数+1)”，看下面的英文句子和中文句子是否与en.txt和zh.txt中的句子一样，如果不一样，修改成一样的就可以了
使用GIZA++进行词对齐
zyxgmlzsj: 我的也是list index out of range
搜索推荐评价指标Precision@k、Recall@k、F1@k、NDCG@k
m0_57914665: 在信息检索和推荐系统中，`TP@k`（True Positives @ k）和`FN@k`（False Negatives @ k）是评估推荐系统性能时使用的术语，特别是在二分类或多分类任务中。它们分别代表在前k个推荐结果中真正的正例数量（真正相关或用户真正感兴趣的项目数量）和未被推荐但实际相关的项目数量。 - **TP@k (True Positives @ k)**: 在推荐系统的前k个推荐结果中，实际被正确推荐的相关项目的数量。这些是系统正确识别并推荐给用户的项目。 - **FN@k (False Negatives @ k)**: 在推荐系统的前k个推荐结果之外，但实际上相关的项目数量。这些是系统未能推荐给用户的相关项目。 ### 示例假设在一个推荐系统中，我们有一个用户的测试集包含10部相关电影（用户会喜欢的电影）。系统推荐了10部电影作为推荐列表（k=10）。 - 如果在这10部推荐电影中有7部确实是用户会喜欢的，那么 `TP@10` 就是7。 - 假设测试集中还有3部相关电影没有被推荐，那么 `FN@10` 就是3。 ### 公式 - **TP@k**: \[ \text{TP@k} = \sum_{i=1}^{k} \mathbf{1}_{\{\text{第 } i \text{ 个推荐项目是相关的}\}} \] 这里 \(\mathbf{1}_{\{\cdot\}}\) 是指示函数，如果条件满足则为1，否则为0。 - **FN@k**: \[ \text{FN@k} = \sum_{\text{所有相关项目}} \mathbf{1}_{\{\text{项目不在前 } k \text{ 个推荐中的}\}} \] ### 使用场景 - **TP@k** 被用于计算精确率 (`Precision@k`) 和 F1 分数 (`F1@k`)。 - **FN@k** 被用于计算召回率 (`Recall@k`) 和 F1 分数。通过计算 TP@k 和 FN@k，我们可以进一步分析推荐系统的性能，并据此调整推荐算法以优化用户体验。
[TensorFlow笔记] 获取Tensor的维度（tf.shape(x)、x.shape和x.get_shape()的区别）
书店莫得: 解决问题，感谢博主分享，写的很清晰明了。赞

大家在看

从缺陷分类看团队质量能力的短板 503

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

手撕机 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。