信息论是决策树的数学基础。
熵
熵描述事件的不确定性,单位是bit。如果某个事件有 n 个结果,每个结果的概率为 pn。那么这个事件的熵 H§ 的定义为:
条件熵
熵是对事件结果不确定性的度量,但在知道有些条件时,不确定性会变小。例如,一个人是否是艾滋病的阳性,这个事件的不确定性会存着医疗检测结果而降低。
条件熵衡量的就是在某个条件 X 下,事件 Y 的不确定性,记作 H(Y|X) 。其定义式为理解为,X 事件每个可能性的结果的熵乘以发生概率的求和。
信息增益
信息增益是知道了某个条件后,事件的不确定性下降的程度。写作 g(X,Y)。它的计算方式为熵减去条件熵,如下
表示的是,知道了某个条件后,原来事件不确定性降低的幅度。
信息增益率
信息增益率在信息增益的基础上增加了惩罚项,惩罚项是特征的固有值,是避免上述情况而设计的。
写作 gr(X,Y)。定义为信息增益除以特征的固有值,如下
基尼系数
与熵一样,基尼系数表征的也是事件的不确定性,将熵定义式中的“-logpi”替换为 1-pi 就是基尼系数。