1、决策树的生成是一个递归过程,会有三种情况导致递归返回:
(1)当前结点包含的样本全属于同一类别,无需划分;
(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
(3)当前结点包含的样本集合为空,不能划分。
2、决策树学习的关键是如何选择最优划分属性:希望分支结点所包含的样本尽可能属于同一类别。信息增益、增益率、基尼指数都可以用来选择划分属性。
3、信息增益
若当前样本集合D中第k类样本所占比例为:,则D的信息熵定义为:
的值越小,则D的纯度越高。用属性a对样本集D进行划分所获得的信息增益为:
其中,为D在属性a上取值为的样本,属性a有V个可能的取值