前言
本文只涉及分类树,而不涉及回归树,本文大部分内容均来自于李航博士的《统计学习方法》,在此基础上增加一些个人理解
正文
分类树假设决策树是一棵二叉树
分类树其实与决策树差不多,不同之处在于特征选择以及树的剪枝
决策树利用信息增益选择最优特征,分类树利用基尼指数选择最优特征
决策树的剪枝是在所生成的决策树递归地进行剪枝,分类树利用 α α 的不同取值范围对分类树进行剪枝生成一系列子树,从子树中选取最优解
特征选择
分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点
注:
最优二值切分点
假设一个训练数据集为 D D ,特征为 A A ,最优二值切分点就是找到一个特征值 Ai A i ,使得当 A=Ai A = A i 时,数据集 D D 能够很好的归类
基尼指数
分类问题中,假设有 K K 个类,样本点属于第 k k 类的概率为 pk p k 则概率分布的基尼指数定义为
Gini(p)=∑k=1kpk(1−pk)=1−∑k=1kp2k G i n i ( p ) = ∑ k = 1 k p k ( 1 − p k ) = 1 − ∑ k = 1 k p k 2
注:
∑k=1kpk=1 ∑ k = 1 k p k = 1
对于给定的样本集合 D D ,其基尼指数为
Gini(D)=1−∑k=1k(|ck||D|