信息熵与信息增益

最新推荐文章于 2023-05-17 18:12:15 发布

_吟游诗人

最新推荐文章于 2023-05-17 18:12:15 发布

阅读量5.4k

点赞数 3

分类专栏：夯实-机器学习文章标签：信息熵信息增益决策树机器学习信息量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32623363/article/details/113273501

版权

夯实-机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

信息熵（information entropy）是度量样本集合纯度/不确定度最常用的指标之一。
但要注意，信息熵越小，表示不确定度越低，确定度越高，纯度越高。
$Ent(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k}$

信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。
信息量的公式表示如下：
$h(x)=-log_2p(x)$

由于概率范围为0-1，因此log2p(x)的范围在负无穷到0，而负号则让信息量变成正数。正好可以得出，一件事情发生的概率越小，信息量越大。
而信息熵则代表了多件不相关的事件发生所产生的信息量之和。

信息增益（information gain） 代表的是在一个条件下，信息复杂度（不确定性）减少的程度，也即纯度提高的程度。
$a)=Ent(D)-\sum_{V}^{v=1}{\frac{|D^v|}{D}Ent(D^v)}$
信息增益越大，表示信息的不确定度降低的越多，即信息的纯度越高。
在决策树的ID3算法中，追求的是信息熵越小越好，信息增益越大越好。

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。