西瓜书第四章总结

1.树的划分流程

Alt

2. 树的划分选择

树的划分选择也即如何选择最优划分属性
常用三种划分规则:信息增益、信息增益率、基尼指数
ID3:采用信息增益划分数据,计算获得所有特征中信息增益最大的特征,用于划分数据集。不过信息增益准则对可取值数目较多的属性有所偏好
C4.5:为了减少信息增益准则带来的对偏好的影响,C4.5采用信息增益率划分数据,
Alt
其中,
Alt

称为属性a的固有值。一般可取值数目越多,固有值越大。增益率准则对可取值数目较少的属性会有所偏好,所以C4.5并不是采用增益率最大的属性进行划分,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,然后从中选择增益率最高的属性。
CART:采用基尼指数来选择划分属性。在候选的属性集合中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。

3.如何对抗过拟合

预剪枝:比如基于信息增益,先选取信息增益最大的特征进行划分,而是否要进行这个划分要对划分前后的泛化性能进行估计。
后剪枝:先从训练集中生成一颗完整决策树,然后自底向上地对树中的所有非叶结点进行逐一考察,若将其领衔的分支剪除,是否提高泛化性能。

4.如何处理连续值与缺失值

处理连续值的手段:连续属性离散化
处理缺失值的手段:

CART分类树与回归树原理

分类树 李航老师书中是这样描述的:分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点。周志华老师书中这样描述用基尼指数划分决策树的:在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。故我的理解是首先选择最优划分属性,然后选择最优划分属性中的最优划分点。
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中,我们采用信息论中的方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法。假如我们有n个特征,每个特征有si(i∈(1,n))个取值,那我们遍历所有特征,尝试该特征所有取值,对空间进行划分,直到取到特征j的取值s,使得损失函数最小,这样就得到了一个划分点。
Alt
其中,
Alt

参考

[1]周志华.[机器学习]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值