什么是信息增益率?它有什么缺点?
① 信息增益率的公式为:
② 由上图可以看出,信息增益率=信息增益/IV(a)。
注:说明信息增益率是信息增益除了一个属性a的固有值得来的。
④ 我们一开始分析到,信息增益准则其实是对可取值数目较多的属性有所偏好。
注:比如上面提到的编号,可能取值是实例个数,分的类别特别多,分到每一个子结点,子结点的纯度也就越可能大,因为数量少了嘛,可能在一个类的可能性就最大。
⑤ 我们分析到了,信息增益并不是一个很好的特征选择度量,于是我们引出了信息增益率。
⑥ 我们来看IV(a)的公式: 属性a的固有值:
- IV(触感) = 0.874 ( V = 2,有2个触感的子属性 )
- IV(色泽) = 1.580 ( V = 3,有3个色泽的子属性:青绿、乌黑、浅白)