常见的损失函数之MSE\Binary_crossentropy\categorical_crossentropy

最新推荐文章于 2025-03-28 10:21:00 发布

Li_GaoGao

最新推荐文章于 2025-03-28 10:21:00 发布

阅读量5.8w

点赞数 32

分类专栏：深度学习之点滴

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/legalhighhigh/article/details/81409551

版权

深度学习之点滴专栏收录该内容

33 篇文章

订阅专栏

本文介绍了机器学习中的损失函数概念，包括均方误差、交叉熵损失函数及其在二分类和多分类任务中的应用，并探讨了softmax激活函数与交叉熵的结合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

损失函数是机器学习最重要的概念之一。

这篇文章写的时候还很嫩，读者指出的很多问题无法一一答复，可参考其他文章哈。

通过计算损失函数的大小，是学习过程中的主要依据也是学习后判断算法优劣的重要判据。

常用的损失函数有均方误差：MSE $\sum_{i=1}^n(y_i - \hat y_i)^2$ $\frac{\partial loss}{\partial y} = 2\sum_{i=1}^n(y_i - \hat y_i)$
是最经典也是最简单的损失函数，几乎万能，但是不太准确。
binary_crossentropy交叉熵损失函数，一般用于二分类： $-\sum_{i=1}^n \hat y_i log y_i + (1- \hat y_i)log (1-\hat y_i)$ $\frac{\partial loss}{\partial y} = -\sum_{i=1}^n \frac{\hat y_i}{y_i} - \frac{1-\hat y_i}{1-y_i}$
这个是针对概率之间的损失函数，你会发现只有 $y_i$ 和 $\hat y_i$ 是相等时，loss才为0，否则loss就是为一个正数。而且，概率相差越大，loss就越大。这个神奇的度量概率距离的方式称为交叉熵。
categorical_crossentropy分类交叉熵函数： $-\sum_{i=1}^n \hat y_{i1} log y_{i1} + \hat y_{i2} log y_{i2} + \dots + \hat y_{im} log y_{im}$ n是样本数，m是分类数，注意，这是一个多输出的loss的函数
，所以它的loss计算也是多个的。 $\frac {\partial loss}{\partial y_{i1}} = -\sum_{i=1}^n \frac{\hat y_{i1}}{y_{i1}}$ $\frac {\partial loss}{\partial y_{i2}} = -\sum_{i=1}^n \frac{\hat y_{i2}}{y_{i2}}$ $\dots$ $\frac {\partial loss}{\partial y_{im}} = -\sum_{i=1}^n \frac{\hat y_{im}}{y_{im}}$
一般来说，如果最后一层接上softmax作为分类概率输出时，都会用categorical_crossentropy作为损失函数，所以框架中会进行优化，对这两条公式的梯度合起来计算，发现合起来以后，loss计算就会超简单。
所以稍微介绍一下softmax激活函数：
$S_i = \frac{e^{V_i}}{\sum_j{e^{V_j}} }$ softmax激活函数，就是将输入数据取指数，然后归一化后，谁的数值较大谁的概率就越大。这解决了输出数据中概率和必需为1。而且输出概率值与输入值之间成正相关的问题。更重要的是它的求导形式很简单：
i和j相同时： $\frac{\partial S_i}{\partial V_i} = S_i(1-S_i)$ i和j不同时： $\frac{\partial S_i}{\partial V_j} = -S_iS_j$ 尽管看起来也很复杂，但是和交叉熵结合在一起，就比较简单了。具体推导有时间再看~

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。