动手学深度学习二：关于熵和损失函数的理解

最新推荐文章于 2024-08-01 11:23:07 发布

winnie爱学习

最新推荐文章于 2024-08-01 11:23:07 发布

阅读量449

点赞数 8

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35668469/article/details/135516011

版权

李沐动手学深度学习
课程网址：https://courses.d2l.ai/zh-v2/
包含教材和视频网址链接

关于熵，教材中的描述非常形象，那就是描述信息量多少。当我们根据一些数据去预测一个结果，如果这些数据都单一的指向结果，那么这些数据对结果的预测没有信息量。但如果这些数据不能直接指向预测的结果，我们会感到很诧异，相比下来这些数据包含了更多的信息量。（感觉类比于程序员修bug，越是输出不符合预期，这个bug的信息量就越多。）

我们对于模型的最终表现期望，就是对于已知数据集的分布，预测出来的概率分布趋近于实际的分布，也就是模型在训练的过程中，熵是不断减小的过程。

交叉熵损失函数的表达是：
在这里插入图片描述
其中y_hat是softmax函数，保证输出的类别概率在0-1之间，并且概率总和为1，相当于对输出做了规范。将softmax函数带入上式求导

神奇的一幕出现了，损失函数对于未规范化的估计值梯度，表示的就是观测值和估计值的差，模型训练过程中，随着梯度的减小（随机梯度下降），观测值和估计值的差也会减小。

如果理解有误，欢迎交流讨论！

winnie爱学习

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习二：关于熵和损失函数的理解

当我们根据一些数据去预测一个结果，如果这些数据都单一的指向结果，那么这些数据对结果的预测没有信息量。但如果这些数据不能直接指向预测的结果，我们会感到很诧异，相比下来这些数据包含了更多的信息量。神奇的一幕出现了，损失函数对于未规范化的估计值梯度，表示的就是观测值和估计值的差，模型训练过程中，随着梯度的减小（随机梯度下降），观测值和估计值的差也会减小。我们对于模型的最终表现期望，就是对于已知数据集的分布，预测出来的概率分布趋近于实际的分布，也就是模型在训练的过程中，熵是不断减小的过程。包含教材和视频网址链接。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。