深度学习理论——信息量，信息熵，交叉熵，相对熵及其在机器学习中的应用

最新推荐文章于 2023-12-31 01:37:30 发布

Miss_yuki

最新推荐文章于 2023-12-31 01:37:30 发布

阅读量2.8k

点赞数 1

分类专栏：深度学习文章标签：交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Miss_yuki/article/details/81951949

版权

本文探讨了信息量、信息熵的概念，并详细解释了交叉熵和相对熵（KL散度）在深度学习中的作用。通过理解这些理论，可以更好地理解为何在机器学习中我们通常寻求最小化交叉熵，以使预测分布更接近真实分布。

摘要由CSDN通过智能技术生成

大家好，继续理论学习，在我当年的一篇讲softmax和LR回归的博客里

就是这篇博客！

还有这篇！

在里面只是简单地讲了交叉熵的公式，但是为什么深度学习当时要取最小的交叉熵来优化参数，其实我没太明白，今天搞明白了，来记录一下。

1.信息量

信息量的大小可以衡量事件的不确定性或发生的惊讶程度。一个事件发生的概率越小则其所含的信息量越大。设事件发生的概率为P(x)，则其信息量表示为：

2.信息熵

对于一个随机变量x而言，它的所有可能取值的信息量的期望就称为信息熵，知道是期望我们就可以写出下列表达式：

3.交叉熵

现在有样本集的两种概率分布p和q，其中p是样本的真实分布，q为非真实分布（在深度学习中可以看做是预测分布），如果我们要用非真实分布q来预测样本（对应于得到训练完的样本来进行测试），则是基于分布q的信息量的期望，由于样本来自于分布p，因此期望与真实分布一致

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。