机器学习中交叉熵和相对熵的关系

本文探讨了机器学习中的交叉熵和相对熵。自信息用于衡量单个事件的不确定性,而信息熵则衡量整个事件的不确定性。交叉熵描述了两个分布的接近程度,相对熵(KL距离)则表示两个分布之间的差异。通过数学变换,我们可以得出交叉熵等于相对熵加上常数信息熵。在优化过程中,通常关注的是相对熵,因为信息熵是固定的。
摘要由CSDN通过智能技术生成

机器学习中交叉熵和相对熵的关系

首先需要了解几个概念
自信息: 描述单个事件的不确定性
 I  ( x ) = − log ⁡ [ p ( x ) ] \text { I }(x)=-\log [\boldsymbol{p}(\boldsymbol{x})]  I (x)=log[p(x)]
信息熵:描述整个事件的不确定性,事件越不确定,熵也就越大。即对自信息在事件上的概率分布求期望
 H(P)  = E x ∼ p [ I ( x ) ] = − ∑ i N P ( x i ) log ⁡ P ( x i ) \text { H(P) }=\boldsymbol{E}_{\boldsymbol{x} \sim p}[\boldsymbol{I}(\boldsymbol{x})]=-\sum_{i}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) \log \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right)  H(P) =Exp[I(x)]=iNP(xi)logP(xi)

上图是对一个简单的二项分布求熵的结果,可以看到当probability=0.5时,信息熵的值最大等于0.69也就是最不确定。
交叉熵:描述两个分布有多接近
H ( P , Q ) = − ∑ i = 1 N P ( x i ) log ⁡ Q ( x i ) \mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) H(P

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值