决策树
1. 划分选择:
1.1 信息增益(ID3)
信息熵的定义:
Ent(D)=−∑k=1|y|pklog2pk
Ent(D)越小,纯度越高
信息增益(information gain)
Gain(D,a)=Ent(D)−∑v=1V|Dv||D|Ent(Dv)
一般而言,信息增益越大,属性划分所获的的纯度提升越大。
1.2 信息增益率(C4.5)
信息增益准则可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,C4.5改进成增益率,定义为:
Gainratio(D,a)=Gain(D,a)IV(a)
其中:
IV(a)=−∑v=1V|Dv||D|log2|Dv||D|
1.3 基尼指数
Gini(D)=∑k=1|y|∑k′≠kpkpk′=1−∑k=1|y|p2k
Gini(D)越小,数据集D的纯度越高。
Giniindex(D,a)=∑v=1V|D||Dv|Gini(Dv)
2. 剪枝处理
剪枝处理分为预剪枝 和 后剪枝
预剪枝开销大,每次决策计算一次验证集精度。
后剪枝则在生成决策树之后,对分支计算验证集精度,精度有提升则剪枝