机器学习理论_吃瓜系统之3：决策树模型

最新推荐文章于 2022-08-29 08:57:41 发布

笨猪起飞

最新推荐文章于 2022-08-29 08:57:41 发布

阅读量744

点赞数

分类专栏：机器学习理论与实践从入门到放弃文章标签：决策树机器学习算法

本文链接：https://blog.csdn.net/cy15625010944/article/details/122603182

版权

机器学习理论与实践从入门到放弃专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树模型

一、简介
一、决策树的原理
二、剪枝与缺失值处理
- 1.剪枝
- 2.缺失值处理
三、多变量决策树
- 决策树的增量学习
总结
- 参考文章：

一、简介

决策树是对数据进行分类的一种算法。对数据的特征一一判断，从而得出该数据属于哪一个类别。

基于树结构来进行决策的，其目的是为了产生一颗泛化能力强、即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”的策略。

一、决策树的原理

决策树分类器是基于数据集建立起来的，通过对数据集的分析，计算各种划分方式的信息增益，确定一个最优的划分顺序。

决策树的生成是递归过程，其结束条件有三个：

当前结点包含样本全属于同一类别
当前属性集为空，或所有样本在所有属性上取值相同
当前结点包含的样本集合为空

第 2 种情形当前结点标记为叶结点，类别设定为该结点所含样本最多的类别；利用当前结点的后验分布？
第 3 种情形当前结点标记为叶结点，类别设定为其父结点所含样本最多的类别；把父结点的样本分布作为当前结点的先验分布？

划分选择：随着划分过程不断进行，希望决策树的分支结点尽可能的属于同一类，即结点的纯度越来越高 分类原则：信息熵与增益 ，计算公式与准则：对可取值数目较多的属性有所偏好，存在弊端，减少其弊端，引入增益率来选择最优划分属性。
改进方案：增益率与基尼指数
增益率：准则：对可取值较少的属性有所偏好，因此选择高于信息增益高于平均水平中增益率最高的
基尼指数：准则：选择那个使得划分后基尼指数较小的属性作为最优划分属性，

不同的决策树算法
cart：二分树，一个特征可以参与多次二分分裂

id3：多分树，使用信息增益作为特征划分算法

c4.5：多分树，使用信息增益率作为特征划分算法，对特征取值较多的特征能够通过除以一个描述特征取值个数的函数来抵消掉特征取值较多带来的信息增益增加。

二、剪枝与缺失值处理

1.剪枝

剪枝处理：对付过拟合的主要手段，基本策略有预剪枝和后剪枝，
预剪枝：在划分前后，对性能提升不大的节点进行裁剪
后剪枝：对完整的决策树自底向上进行考察，若能将该节点对应的子树替换为叶结点能带来提升，则将该子树替换为叶节点。

性能提升的判别方法 ：2.2中提到的性能评估方法：留出法、交叉验证法、自助法等

总结：后减枝决策比预剪枝决策保留了更多的分支，一般情形下，后减枝的欠拟合风险小，泛化性能高于预剪枝，但其训练时间和开销均比预剪枝大得多。

2.缺失值处理

连续与缺失值：常见的属性为连续型，最简单的策略是采用二分法处理，
缺失值处理方法：将无缺失值的计算各属性的信息增益，然后乘以属性缺失的概率，概率为不同类别所占比例

三、多变量决策树

每个属性对应一个轴，d 个属性的样本对应 d 维空间的一个样本点，对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界有明显特点：轴平行
多变量决策特点：”斜划分“，试图建立一个合适的线性分类器，

决策树的增量学习

决策树的建立和数据集紧密相关，如果数据集不能很好地表达数据的真正分布情况，那得到的决策树就会受到影响。同时在面对大数据和实时预测分类时，获取到包含完整类别的数据集较为困难，因此很有必要进行增量学习
其原理是在接收到新样本后可对己学得的模型进行调整，而不用完全重新学习.主要机制是通过调整分支路径上的划分属性次序来对树进行部分重构，代表性算法有ID4、ID5R、ITI，增量学习可有效地降低每次接收到新样本后的训练时间开销，但多步增量学习后的模型会与基于全部数据训练而得的模型有较大差别.

总结

1、决策树分类器是基于数据集建立起来的，通过对数据集的分析，计算各种划分方式的信息增益，确定一个最优的划分顺序。
2、决策树的建立和数据集紧密相关，如果数据集不能很好地表达数据的真正分布情况，那得到的决策树就会受到影响。不过这一点我并没有验证过。
3、在对新数据分类的时候，根据建立好的树，一个一个判断数据的特征，这个过程就像程序中使用的if/else语句，一层一层往下，直到走到决策树的最底层。