从“信息增益”到KL Divergence 和 Cross Entropy

最新推荐文章于 2024-08-09 08:02:18 发布

Yang-W

最新推荐文章于 2024-08-09 08:02:18 发布

阅读量1.2k

点赞数

分类专栏： deep-learning math

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiandiwoxin92/article/details/78244739

版权

从“信息增益”到KL Divergence 和 Cross Entropy

周志华老师在他的西瓜书的第四章，引入了“信息熵”，“信息增益”（information gain）的概念，并用信息增益最大为准则选择划分决策树的属性。周老师并没有对这两个概念进行深入讲解，实际上这两个概念均来源于信息论（Information Theory）领域。

Entropy, actually, is a measure of surprise

西瓜书中对信息熵是这样定义的：

假定当前集合 $D$ 中第 $k$ 个类样本所占比例为 $p_{k}$ , 则 $D$ 的信息熵定义为

$E n t (D) = - \sum k p k l o g 2 p k$ $Ent(D) = -\sum_{k}p_{k}log_{2}p_{k}$

事实上，我们可以把 $p_{k}$ 近似看成一个样本是第 $k$ 类的概率，那么信息熵就可以看做是观测到一个样本，所得到的信息的一个期望。

H (K) = E (l o g (1 p k))

$H(K) = E(log(\frac{1}{p_{k}}))$
其中

log(1pk) $log(\frac{1}{p_{k}})$ 就表示观测到一个样本，他的类别是

k $k$ 的信息。
从上述公式可以看出，观测到一个事件给我们的信息量，跟这个事件发生的概率有关。概率越小，信息量越大。

Information Gain is also called mutual information

西瓜书接下来又定义了information gain：

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。