ID3算法之信息熵等基本概念

最新推荐文章于 2024-03-04 11:45:22 发布

cool-wangtongzhou

最新推荐文章于 2024-03-04 11:45:22 发布

阅读量993

点赞数 1

文章标签：算法决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/e2788666/article/details/124556050

版权

文章目录

引入

ID3算法是决策树系列中的经典算法之一，包含了决策树作为机器学习算法的主要思想。但ID3算法在实际应用中有诸多不足，因此之后提出了大量的改进算法，如C4.5算法和CART算法。

构造决策树的核心问题是在每一步如何选择 恰当的属性 对样本进行拆分。ID3算法使用信息增益进行属性选择度量，C4.5算法使用增益率进行属性选择度量，CART算法则使用基尼指数。

一、信息增益

信息增益，顾名思义，就是信息增加，带来的益处。

我们用一个比较通俗的例子来讲解这些概念。

场景设定：《非诚勿扰》节目

随机变量：牵不牵手

假设女嘉宾不知道下一个上场的男嘉宾的任何信息，接受下一个上场的男嘉宾的不确定性是0.84（意思就是要不要接受这个男嘉宾，变化会是很大的）

但是当听到主持人介绍说，这位男嘉宾收入高达年薪千万，女嘉宾接受这个男嘉宾的不确定性马上降低到了0.32，因为信息的增加，使得女嘉宾更确定了要跟这位男嘉宾在一起。

中间变化的这些就是信息增益量，0.84 - 0.32 = 0.52, 0.52是信息增益量，即知道收入这个条件带来的好处，使不确定性降低了

二、信息熵

表示随机变量的不确定性。

在上面例子中，表示的是一开始，女嘉宾不知道男嘉宾任何信息的情况下，牵不牵手的不确定性，也就是0.84。

香农借用物理学中表示分子状态混乱程度的熵，提出用信息熵描述信源的不确定性，也就是信息量的大小。

概率描述的是确定性，信息熵描述的是不确定性，是两个相反的概念。

信息熵和概率成反比。

信息熵和信息量成正比。

也就是说，一个事情发生的概率越低，不确定性越高，从不确定到确定这个过程中可描述的信息就越多，所以信息量就越高。

三、条件熵

根据上面的例子，我们来介绍一下条件熵。

条件熵，就是在一个条件下，随机变量的不确定性。

在上面的例子中就是，知道了男嘉宾的收入后，牵不牵手的不确定性是0.32。

四、小结

信息增益 = 熵 - 条件熵。

信息增益：表示在一个条件下，信息不确定性减少的程度。

cool-wangtongzhou

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ID3算法之信息熵等基本概念

文章目录引入一、信息增益二、信息熵三、条件熵四、小结引入ID3算法是决策树系列中的经典算法之一，包含了决策树作为机器学习算法的主要思想。但ID3算法在实际应用中有诸多不足，因此之后提出了大量的改进算法，如C4.5算法和CART算法。构造决策树的核心问题是在每一步如何选择恰当的属性对样本进行拆分。ID3算法使用信息增益进行属性选择度量，C4.5算法使用增益率进行属性选择度量，CART算法则使用基尼指数。一、信息增益信息增益，顾名思义，就是信息增加，带来的益处。我们用一个比较通俗的例子来讲
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。