西瓜书第四章总结

最新推荐文章于 2023-04-16 19:19:07 发布

心静菩提现

最新推荐文章于 2023-04-16 19:19:07 发布

阅读量376

点赞数 1

分类专栏：西瓜书

本文链接：https://blog.csdn.net/l1078530758/article/details/90487460

版权

西瓜书专栏收录该内容

2 篇文章 0 订阅

订阅专栏

西瓜书第四章总结

1.树的划分流程
2. 树的划分选择
3.如何对抗过拟合
4.如何处理连续值与缺失值
CART分类树与回归树原理
参考

1.树的划分流程

Alt

2. 树的划分选择

树的划分选择也即如何选择最优划分属性
常用三种划分规则：信息增益、信息增益率、基尼指数
ID3：采用信息增益划分数据，计算获得所有特征中信息增益最大的特征，用于划分数据集。不过信息增益准则对可取值数目较多的属性有所偏好
C4.5：为了减少信息增益准则带来的对偏好的影响，C4.5采用信息增益率划分数据，
Alt
其中，
Alt

称为属性a的固有值。一般可取值数目越多，固有值越大。增益率准则对可取值数目较少的属性会有所偏好，所以C4.5并不是采用增益率最大的属性进行划分，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，然后从中选择增益率最高的属性。
CART：采用基尼指数来选择划分属性。在候选的属性集合中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

3.如何对抗过拟合

预剪枝：比如基于信息增益，先选取信息增益最大的特征进行划分，而是否要进行这个划分要对划分前后的泛化性能进行估计。
后剪枝：先从训练集中生成一颗完整决策树，然后自底向上地对树中的所有非叶结点进行逐一考察，若将其领衔的分支剪除，是否提高泛化性能。

4.如何处理连续值与缺失值

处理连续值的手段：连续属性离散化
处理缺失值的手段：

CART分类树与回归树原理

分类树李航老师书中是这样描述的：分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。周志华老师书中这样描述用基尼指数划分决策树的：在候选属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。故我的理解是首先选择最优划分属性，然后选择最优划分属性中的最优划分点。
一个回归树对应着输入空间（即特征空间）的一个划分以及在划分单元上的输出值。分类树中，我们采用信息论中的方法，通过计算选择最佳划分点。而在回归树中，采用的是启发式的方法。假如我们有n个特征，每个特征有si(i∈(1,n))个取值，那我们遍历所有特征，尝试该特征所有取值，对空间进行划分，直到取到特征j的取值s，使得损失函数最小，这样就得到了一个划分点。
Alt
其中，
Alt