交叉熵损失函数VS均方差损失函数

one-莫烦

已于 2022-02-11 11:44:39 修改

阅读量5.4k

点赞数 5

分类专栏：机器学习深度学习文章标签：深度学习机器学习

于 2021-11-30 15:13:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42127358/article/details/121631856

版权

深度学习同时被 2 个专栏收录

21 篇文章

订阅专栏

16 篇文章

订阅专栏

本文探讨了均方差(MSE)损失函数与交叉熵在分类任务中的作用，特别强调了交叉熵在二分类和多分类场景中的表达形式，以及为何选择交叉熵作为优化模型速度的策略。对比了两者在评估模型性能和学习过程中的差异，揭示了交叉熵作为损失函数的原理和优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

均方差损失函数和交叉熵损失函数是比较常用的损失函数

分类中常用交叉熵？

MSE

均方误差损失也是一种比较常见的损失函数，其定义为：在这里插入图片描述

Cross Entropy Loss Function

二分类

在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为P和 1-P ，此时表达式为：
在这里插入图片描述

其中：
yi—— 表示样本i的label，正类为 1，负类为0
pi—— 表示样本i预测为正类的概率

多分类

多分类的情况实际上就是对二分类的扩展：
在这里插入图片描述

其中：
M——类别的数量
yic——符号函数(0或者1），如果样本 i的真实类别等于C取1 ，否则取0
pic——观测样本 i属于类别C的预测概率

计算流程

在这里插入图片描述

MSE

在这里插入图片描述

交叉熵

在这里插入图片描述

使用交叉熵的原因

交叉熵

在这里插入图片描述

在这里插入图片描述

结论：

在用梯度下降法做参数更新的时候，模型学习的速度取决于两个值：一、学习率；二、偏导值。其中，学习率是我们需要设置的超参数，所以我们重点关注偏导值。从上面的式子中，我们发现，偏导值的大小取决于x 和 sigmod值与y的差，我们重点关注后者，后者的大小值反映了我们模型的错误程度，该值越大，说明模型效果越差，但是该值越大同时也会使得偏导值越大，从而模型学习速度更快。所以，使用逻辑函数得到概率，并结合交叉熵当损失函数时，在模型效果差的时候学习速度比较快，在模型效果好的时候学习速度变慢。

MSE

在这里插入图片描述

交叉损失函数的由来

在这里插入图片描述

利用相对熵来比较两个分布的差异性，所以可以用来比较预测和真实值的差异性，上公式中的P代表着真实值，q代表着预测值

其中P的熵是一个定值要想预测与真实差异小相对熵需要越小所以交叉熵需要越小推出利用交叉熵来代表模型的损失
在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。