决策树采用树结构来进行决策的,可以认为是if-then规则集合,也可以认为是对特征空间划分,每个子空间对应一个输出。其优点简单,快速,可解释性强。决策树通常包含三部分:特征选择,决策树生成,决策树剪枝。
1.特征选择
信息增益,信息增益比,基尼指数是常用的特征选择准则
- 信息增益
信息熵:表示变量的不确定程度,信息熵越大不确定却大。也可说是样本纯度,样本纯度越高,信息熵越小
信息增益:给定特征后不确定性减少程度
- 信息增益比