信息熵,信息增益

信息熵是衡量不确定性的一个概念,常用于数据的纯度评估。在等概率事件中,如硬币投掷或扑克牌抽取,信息熵可以用对数来计算。信息增益是ID3决策树算法中选择划分属性的关键指标,它倾向于选择能最大化纯净度(降低信息熵)的属性,即使得划分后的子节点具有更高纯度。
摘要由CSDN通过智能技术生成

信息熵

信息是用来消除事物不确定性的

抛掷一枚硬币,在知道结果前,有正反两种可能,即它所含的信息量为log2=1(注:未加说明,则本文章后续默认底数为2)

四张花色不同的扑克牌,在知道结果前,有四种可能,所含信息量为log4 = 2;

而之所以以2为底,是由于计算机的编码方式为二进制;

上述所说的两种情况,各个事件发生是等概率的,而现实生活中常常会遇到的是不等概率的。

因此就有了香农提出的信息熵公式:

信息熵越小,D的纯度越高。

信息增益是著名的决策树算法ID3的划分属性的方法;信息增益所追求的是通过这个属性划分后每个节点尽可能的干净(纯度高),因此信息增益对于会产生更多分支的属性是有偏好的;或者可以这样理解,如果我们按照类似于学号这种独一无二的属性对数据集去进行划分时,划分后每个节点的信息熵为0,即能达到信息增益最大,因此说信息增益对有更多分支的属性有偏好。

信息增益公式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nnlee.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值