python计算信息增益_机器学习 第55集 什么是信息增益率?它有什么缺点?( 含有笔记、代码、注释 )...

本文介绍了信息增益率的概念及其相对于信息增益的优点,探讨了信息增益率的公式和固有值计算,指出其对类别数目较少的特征有所偏好。同时,文章还涉及到Python中numpy库的基础知识,包括numpy矩阵的信息获取和数组的相关属性。
摘要由CSDN通过智能技术生成

什么是信息增益率?它有什么缺点?

① 信息增益率的公式为:

b5b7ba646a845b3cbf5c7e14dfb65904.png

② 由上图可以看出,信息增益率=信息增益/IV(a)。

注:说明信息增益率是信息增益除了一个属性a的固有值得来的。

④ 我们一开始分析到,信息增益准则其实是对可取值数目较多的属性有所偏好。

注:比如上面提到的编号,可能取值是实例个数,分的类别特别多,分到每一个子结点,子结点的纯度也就越可能大,因为数量少了嘛,可能在一个类的可能性就最大。

⑤ 我们分析到了,信息增益并不是一个很好的特征选择度量,于是我们引出了信息增益率。

⑥ 我们来看IV(a)的公式: 属性a的固有值:

0f022934bc96248e0179e4ee0ad8ed6d.png
  1. IV(触感) = 0.874 ( V = 2,有2个触感的子属性 )
  2. IV(色泽) = 1.580 ( V = 3,有3个色泽的子属性:青绿、乌黑、浅白)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值