信息熵

本文介绍了信息熵在决策树算法中的重要性。首先解释了信息量的概念,指出小概率事件的信息量更大。接着详细阐述了信息熵的定义、性质以及如何计算,强调类别越多、分布越均匀,信息熵越大。通过苹果甜不甜的例子,展示了条件熵和信息增益的计算过程,说明信息增益为0意味着条件对结果判断无帮助,而正的信息增益则有助于结果决定。最后提到了信息增益在ID3决策树算法中的应用。
摘要由CSDN通过智能技术生成

在决策树算法中,看到信息增益的概念,因此需要了解信息熵。
谈到信息熵,必须了解上一个概念,信息量。
信息量
I(x)= -log2(p(x))
信息量为一个确定的事情所包含的信息量,例如这个西瓜是甜的,今天天气很好,针对的事情是确定的,例如我有一个特异功能,就是预知未来,现在面前有一个苹果,最开始我不知道他是不是甜的,只知道它是甜的的概率是50%,之后我通过预知能力确认了这个苹果是甜的,那么我的预知能力带给我的信息量就是I(x)= -log2(0.5)=log2(2)=1 bit ,而越小的概率的事件,预知它带来的信息量就越大,所以有些电视剧中占卜小概率事件的时候常常会吐血身亡,就是承受不了这件事带来的信息量!

信息熵
公式不会编辑,从其他文章截图过来
这里写图片描述

信息熵则是对于未确定的事情来讲,未确定的事情便意味具有多种可能或者说多种类别,最少便是两种类别,苹果的甜或者不甜,便是二类问题。
信息熵具有两条关键性质:
1、类别越多,信息熵越大,均匀来讲,十个类别的事情大于两个类别事情。
2、类别个数相同时,越均匀,信息熵越大。
举例来讲:
苹果编号 大小 形状 颜色 甜不甜
1 大 圆 红 甜
2 大 圆 青 不甜
3 小 圆 青 甜

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值