信息增益率与信息增益有关。
信息增益存在一个问题,即若某个属性可取值数目较多,如用ID来作为分类标准,则信息增益会非常高。然而,这显然不符合实际情况,模型进入了过拟合,且不能对新数据进行有效的分类。
增益率则在考虑了该情况的前提下,提出了一个新的公式:
G
a
i
n
_
r
a
t
i
o
(
D
,
a
)
=
G
a
i
n
(
D
,
a
)
I
V
(
a
)
I
V
(
a
)
=
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
l
o
g
2
∣
D
v
∣
∣
D
∣
Gain\_ratio(D, a)=\frac{Gain(D, a)}{IV(a)} \\IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}}
Gain_ratio(D,a)=IV(a)Gain(D,a)IV(a)=−∑v=1V∣D∣∣Dv∣log2∣D∣∣Dv∣
其中,a的可取值数量V越大,IV(a)就会越大。
但是,增益率会对可取值数目较少的属性有所偏好。