深度学习计划（1）损失函数

最新推荐文章于 2024-09-26 17:20:50 发布

炸毛的小黑猫

最新推荐文章于 2024-09-26 17:20:50 发布

阅读量194

点赞数

分类专栏：深度学习文章标签：深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42625806/article/details/108672500

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.交叉熵

若一个信息出现的频率较大，它的不确定性较低，其他出现频率较低的，则不确定性较高。用于评价这个不确定性的就是信息熵。

有定义：信息熵代表的是随机变量或整个系统的不确定性，熵越大，随机变量或系统的不确定性就越大

有公式：

使用H(p)来衡量整个真实信息的不确定大小。在进行预测时，我们的输出结果和真实标签是有差异的，而交叉熵就是衡量俩个概率分布的差异值。

有定义：交叉熵，其用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

有公式：

交叉熵越低，这个策略就越好，最低的交叉熵也就是使用了真实分布所计算出来的信息熵。

2.损失函数

2.1 方差代价函数非常好理解，即最小化样本标签和模型输出的距离。但我们常常不用方差函数作为代价函数，这是因为方差代价函数的两个缺点：

缺点1：方差代价函数如下图所示，是非凸函数，导致模型可能会落入局部最优解中，这不利于我们求解全局最优解。

缺点2：配合使用sigmoid激活函数时，存在梯度更新过慢的问题。如下图所示。当预测值越接近0或1时，sigmoid函数的梯度越平滑，所以计算速度上偏慢。

2.2 这时候交叉熵就可以很好的衡量输出与真实标签的距离。

若在二分类问题中，单一样本对应真实标签（y=1，1-y=0）的输出概率为（yhat,1-yhat)，那么根据交叉熵公式，计算：

(注：前面的负号是将交叉熵公式里的分号提出来）

我们再将所有样本的交叉熵加起来，就得到了整个样本集信息的交叉熵，为了避免个别极端的值影响结果，再除以整个样本数目，得到交叉熵的均值，用J表示，也叫做损失函数。均值可以减小得到的J值，使得在多次迭代计算J时，减小J的波动范围。

好了，现在用来衡量输出和真实差异的函数已经构造完成，那么如何最小化这个差异？

炸毛的小黑猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。