信息熵、交叉熵与相对熵(KL散度)的关系,还介绍了联合信息熵和条件熵、互信息(信息增益)的概念

本文详细探讨了信息熵、交叉熵和相对熵(KL散度)的概念,阐述它们在机器学习中的作用。信息熵代表系统的不确定性,交叉熵用于衡量消除不确定性所需的努力,而相对熵是评估两个分布间距离的指标。此外,还讲解了联合信息熵、条件信息熵和互信息(信息增益),帮助理解这些概念在信息理论和数据处理中的重要性。
摘要由CSDN通过智能技术生成

@(关于机器学习的其他)[KL散度][信息熵][交叉熵]


1、信息量

信息量用一个信息所需要的编码长度来定义,而一个信息的编码长度跟其出现的概率呈负相关,因为一个短编码的代价也是巨大的,因为会放弃所有以其为前缀的编码方式,比如字母”a”用单一个0作为编码的话,那么为了避免歧义,就不能有其他任何0开头的编码词了.所以一个词出现的越频繁,则其编码方式也就越短,同时付出的代价也大.

其实也就可以说一件事情发生概率很小的话,那么当他发生的时候所代表的信息量也更大

I=log2(1p(x))=log2(p(x)) I = l o g 2 ( 1 p ( x ) ) = − l o g 2 ( p ( x ) )

2、信息熵

而信息熵则代表一个分布的信息量,或者编码的平均长度

  1. 信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。也就是信息量的一个总期望值也叫均值
  2. 根据真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性,而这个代价大小就是信息熵
  3. 信息熵衡量了系统的不确定性,而我们要消除这个不确定性,所要付出的【最小努力】(猜题次数、编码长度等)的大小就是信息熵

H(p)=xp(x)log2(1p(x))=xp(x)log2(p(x)) H ( p ) = ∑ x p ( x ) l o g 2 ( 1 p ( x ) ) = ∑ x p ( x ) l o g 2 ( p ( x ) )

3、交叉熵cross-entropy

交叉熵本质上可以看成,用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量

交叉熵,用来衡量在给定的真实分布 p p 下,使用非真实分布 q 所指定的策略消除系统的不确定性所需要付出的努力的大小
交叉熵越低,这个策略就越好,最低的交叉熵也就是使用了真实分布所计算出来的信息熵,因为此时 ,交叉熵 = 信息熵。这也是为什么在机器学习中的分类算法中,我们总是最小化交叉熵,因为交叉熵越低,就证明由算法所产生的策略最接近最优策略,也间接证明我们算法所算出的非真实分布越接近真实分布。

Hp(q)=xp(x)log2(1q(x)) H p ( q ) = ∑ x p ( x ) l o g 2 ( 1 q ( x ) )

3.1 交叉熵 cross-entropy在机器学习领域的作用

交叉熵cross-entropy在机器学习领域中经常作为最后的损失函数
为什么要用cross-entropy呢,根据上面的解释,他本质上相当于衡量两个分布之间的距离,因为只有当猜测的分布约接近于真实分布,则其值越小,下确界为真是分布计算的信息熵大小。

L=iyilog(p(xi))+(1yi)log(1p(xi)) L = − ∑ i y i l o g ( p ( x i ) ) + ( 1 − y i ) l o g ( 1 − p ( x i ) )

在LR中用cross-entry比平方误差方法好在:
1. 在LR中,如果用平方损失函数,则损失函数是一个非凸的,而用cross-entropy的话就是一个凸函数
2. 用cross-entropy做LR求导的话,得到的导数公式如下
Lθj
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值