针对分类问题,划分规则的评判可以分为两步:
1.如果一个节点上的数据都差不多是同一类别,那么,这个节点就几乎不需要再做划分了,否则想要针对该节点,生成新的划分规则。
2.如果新的规则能基本上把节点上不同类别的数据离开,使得每个子节点上都是类别比较单一的数据,那么这个规则就是一个好规则。
当前节点记为m,节点上一共有Nm个数据。定义类别i在该节点上的占比如下:
现在定义节点的不纯度,通常记为Hm。数值越接近0,数据类型越单一。常用指标如下:
在节点不纯的基础上,进一步定义划分规则的不纯度。依旧以Gini为例,假设节点根据某种规则被划分为两个子节点,Ni为第i个子节点的数据个数,Ginii表示第i个子节点的Gini指标。权重为子节点的数据量占比