深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

本文探讨了信息量、信息熵的概念,并详细解释了交叉熵和相对熵(KL散度)在深度学习中的作用。通过理解这些理论,可以更好地理解为何在机器学习中我们通常寻求最小化交叉熵,以使预测分布更接近真实分布。
摘要由CSDN通过智能技术生成

大家好,继续理论学习,在我当年的一篇讲softmax和LR回归的博客里

就是这篇博客!

还有这篇!

在里面只是简单地讲了交叉熵的公式,但是为什么深度学习当时要取最小的交叉熵来优化参数,其实我没太明白,今天搞明白了,来记录一下。

1.信息量

信息量的大小可以衡量事件的不确定性或发生的惊讶程度。一个事件发生的概率越小则其所含的信息量越大。设事件发生的概率为P(x),则其信息量表示为:

2.信息熵

对于一个随机变量x而言,它的所有可能取值的信息量的期望就称为信息熵,知道是期望我们就可以写出下列表达式:

3.交叉熵

现在有样本集的两种概率分布p和q,其中p是样本的真实分布,q为非真实分布(在深度学习中可以看做是预测分布),如果我们要用非真实分布q来预测样本(对应于得到训练完的样本来进行测试),则是基于分布q的信息量的期望,由于样本来自于分布p,因此期望与真实分布一致

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值