西瓜书阅读笔记 话不多说 开始吧~
决策树选取属性标准
决策树选取属性标准:“信息增益”(information gain)
1.
Gain(D,a)=Ent(D)−∑Vv=1|Dv|Ent(Dv)/|D|
2. Gain有选择多分支的倾向,比如按编号划分,就是说一个个体一个分支。这样当然是不好的,纠正,“增益率”(Gain Ratio)
Gain_ratio(D,a)=Gain(D,a)IV(a)
3. 基尼指数(Gini index)
Gini(D)=∑k=1|y|∑m≠kpmpk=1−∑k=1|y|p2k
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。 内聚性
预防过拟合
剪枝(validation 验证)
1. 预剪枝
2. 后剪枝
连续值处理
样本D/连续属性a。假定a在D上出现了n个不同取值{
a1,a2,...an
}
基于t,分为两类
D−t/D+t
,
D−t
为属性a上取值不大于t的样本,
D+t
为属性a上取值大于t的样本。
可以有n-1个元素候选划分集合:
Ta={ai+ai+12|1≤i≤n−1}