信息增益的理解

信息论是决策树的数学基础。

熵描述事件的不确定性,单位是bit。如果某个事件有 n 个结果,每个结果的概率为 pn。那么这个事件的熵 H§ 的定义为:
在这里插入图片描述

条件熵

熵是对事件结果不确定性的度量,但在知道有些条件时,不确定性会变小。例如,一个人是否是艾滋病的阳性,这个事件的不确定性会存着医疗检测结果而降低。

条件熵衡量的就是在某个条件 X 下,事件 Y 的不确定性,记作 H(Y|X) 。其定义式为在这里插入图片描述理解为,X 事件每个可能性的结果的熵乘以发生概率的求和。

信息增益

信息增益是知道了某个条件后,事件的不确定性下降的程度。写作 g(X,Y)。它的计算方式为熵减去条件熵,如下在这里插入图片描述
表示的是,知道了某个条件后,原来事件不确定性降低的幅度。

信息增益率

信息增益率在信息增益的基础上增加了惩罚项,惩罚项是特征的固有值,是避免上述情况而设计的。

写作 gr(X,Y)。定义为信息增益除以特征的固有值,如下
在这里插入图片描述

基尼系数

与熵一样,基尼系数表征的也是事件的不确定性,将熵定义式中的“-logpi”替换为 1-pi 就是基尼系数。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值