机器学习笔记

最新推荐文章于 2024-09-12 11:40:36 发布

Idealist_T

最新推荐文章于 2024-09-12 11:40:36 发布

阅读量146

点赞数

分类专栏：机器学习文章标签：学习决策树机器学习

本文链接：https://blog.csdn.net/m0_57113834/article/details/127437182

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文深入探讨了决策树的学习过程，包括其基本流程、属性划分策略如信息增益、增益率和基尼指数。讨论了剪枝技术以防止过拟合，包括预剪枝和后剪枝及其优缺点。同时，介绍了如何处理连续属性和缺失值问题，以及多变量决策树的概念。

摘要由CSDN通过智能技术生成

机器学习初探（第三波~）

四、决策树

决策树基于树结构来进行预测。

1、基本流程

决策过程中提出的每个判定问题都是对每个属性的“测试”
决策过程的最终结论对应了我们所希望的判定结果
每个测试的结果或是导出最终结论，或者导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内
从根节点到每个叶节点的路径对应了一个判定测试序列

决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树

2、划分选择

决策树包含一个根节点、若干个内部节点和若干叶节点；
叶节点对应于决策结果；
其他每个节点对应于一个属性测试；
- 每个节点包含的样本集合根据属性测试的结果被划分到子节点中，根节点包含样本全集
从根节点到每个叶节点的路径对应了一个判定测试序列；
决策树学习的关键在于如何选择最优化分属性。随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。
信息增益
- “信息熵”是度量样本集合纯度最常用的一种指标
- 信息熵表示某一事件的不确定性，而信息传输的作用就是用于降低这种不确定性；
- 输入的信息量就等于该事件不确定性减少的大小，也就是熵减少的大小；
- 信息熵本身不是对信息量的一个度量，而是对事件不确定性的一个度量，而信息量又是对熵减少的一个度量。
- 信息增益=信息熵 - 条件熵
  
  表示在一个条件下，信息不确定性减少的程度。
```
信息增益大越大，这个特征对于分类来说越关键。
```
增益率
- 信息增益准则对可取数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，引入了“增益率”来选择最优划分属性。
- 增益率准则对可取值数目较少的属性有所偏好
基尼指数
- 数据D的纯度可用“基尼值”来度量
- 反应了从D中随机抽取两个样本，其类别标记不一致的概率
- 应选择那个使划分后基尼指数最小的属性作为最优划分属性

3、剪枝处理

为什么剪枝?
- "剪枝"是决策树学习算法对付“过拟合”的主要手段
- 可通过“剪枝”来一定程度避免因决策分支过多，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
剪枝的基本策略：

预剪枝、后剪枝
预剪枝：在决策树的生成过程中，对每个节点在划分前进行估计，若当前节点标记为叶节点的划分不能带来决策树泛化能力提升，则停止划分并将当前节点标记为叶节点；
后剪枝：先从训练集生成一棵完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化能力的提升，则将该子树替换为叶节点；
预剪枝的优缺点：
- 优点：降低过拟合风险、显著减少训练时间和测试时间开销
- 缺点：欠拟合风险
后剪枝的优缺点：
- 优点：后剪枝比预剪枝保留了更多的分支，欠拟合风险小，泛化能力往往优于预剪枝决策树
- 缺点：训练时间开销大。后剪枝过程是在生成完全决策树之后进行的，需要自底向上对所有非叶节点逐一考察。