这两天在学习决策树的时候对决策树特征选择搞得有点混乱,在对李航老师的《统计学习方法》进行反复研读后,对此有了新的认识,也理清了思路。以下是我在李航老师的基础上加了一些自己的理解,有不对的地方欢迎大家批评指正。
1 ID3算法中的特征选择
2 C4.5算法中的特征选择
ID3算法利用信息增益作为选择训练数据集特征选取的依据,存在选择取值较多的特征来对数据集进行分割的偏向。使用 信息增益比来进行特征的选取可以对这一问题进行校正。进而C4.5算法产生了。
3 CART算法中的特征选择
CART算法中,决策树的生成就是递归地构建二叉树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择&#