动手学深度学习二:关于熵和损失函数的理解

李沐动手学深度学习
课程网址:https://courses.d2l.ai/zh-v2/
包含教材和视频网址链接

关于熵,教材中的描述非常形象,那就是描述信息量多少。当我们根据一些数据去预测一个结果,如果这些数据都单一的指向结果,那么这些数据对结果的预测没有信息量。但如果这些数据不能直接指向预测的结果,我们会感到很诧异,相比下来这些数据包含了更多的信息量。(感觉类比于程序员修bug,越是输出不符合预期,这个bug的信息量就越多。)

我们对于模型的最终表现期望,就是对于已知数据集的分布,预测出来的概率分布趋近于实际的分布,也就是模型在训练的过程中,熵是不断减小的过程。

交叉熵损失函数的表达是:
在这里插入图片描述
其中y_hat是softmax函数,保证输出的类别概率在0-1之间,并且概率总和为1,相当于对输出做了规范。将softmax函数带入上式求导
在这里插入图片描述
在这里插入图片描述
神奇的一幕出现了,损失函数对于未规范化的估计值梯度,表示的就是观测值和估计值的差,模型训练过程中,随着梯度的减小(随机梯度下降),观测值和估计值的差也会减小。

如果理解有误,欢迎交流讨论!

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值