机器学习1. 决策树/随机森林

最新推荐文章于 2024-01-09 09:03:30 发布

xd_ljq

最新推荐文章于 2024-01-09 09:03:30 发布

阅读量270

点赞数

本文链接：https://blog.csdn.net/weixin_38333786/article/details/88914298

版权

机器学习算法专栏收录该内容

12 篇文章 1 订阅

订阅专栏

决策树【笔记7】

主要的问题

如何选择分类属性？（特征选择）
如何建立决策树？（相的构造）
如何停止分裂？（停止和减枝）

剪枝

预剪枝

思想：在树生长之前，判断当前划分可否提升模型的泛化能力。如不能，结束生长，对子节点采用投票的方法决定其类别。

树达到一定深度，停止生长
当前节点样本量小于阈值
熵或基尼值小于阈值
所有特征已经用完
因为太多的特征没有被展开，可能导致欠拟合【**】
例：西瓜书81页，对当前节点，使用测试集测试。经过决策树选择之前和之后的准确率对比，若降低则剪枝。预测类别用投票法。

后剪枝

思想：先生成一颗完整的决策树，然后自底向上的决定是否剪枝。剪枝时将子树删除，用叶子结点替代，类别通过投票确定。

可以得到泛化能力更强的决策树。
比预剪枝保留了很多的分支，欠拟合风险小，泛化能力好，但是时间花销比较大
例：西瓜书82页，从最后一个父节点开始，测试有/没有父节点的分类性能，若下降则剪枝。

其他

连续值处理（如数字）

二分法（C4.5采用）
思想：对连续值进行排序，取中位数作为划分点分为两个部分（大于划分点和小于划分点）。
注意：连续值在子树中仍然可以作为属性进行划分。

缺失值处理

建立树的过程（属性划分）：用不确实的属性计算信息增益，然后划分
使用时对样本划分：将不确实改属性的样本进行技术，按比例分别赋给缺失的样本，然后进入下一级操作。（西瓜书87-88页）

总结

ID3 使用信息增益最大作为判断标准，其泛化能力比较弱。因为样本只要不是完全一样（字符串，DNA），它的条件熵就会=0，从而导致增益最大，这样不利于树的生长。
C4.5 是、对ID3的改进，通过引入信息增益比，一定程度上对取值较多的特征进行惩罚，避免由于取值较多出现过拟合，提高了泛化能力。
ID3 只能处理离散变量，C4.5和CART都可以处理连续型变量。C4.5通过排序后找到数据的切分点，再将不同数据段转为布尔型，从而转为离散型。而CART，每次都对特征进行二值的划分，适应于连续型变量。
ID3和C4.5只能用于分类任务，而CART还可以应用于回归任务（损失函数：MSE）。

随机森林

西瓜书 P179
引入集成学习bagging的思想，每颗决策树使用的特征是原始特征的一个子集，假设原始有 $d$ 个特征，随机森林里每棵树有 $k$ 个特征，一般取 $k = l o g d$
原理：

样本扰动（bagging对训练数据采样，每个树看到部分数据）
属性扰动（单个树性能有所降低，但是集成后的性能很好，而且有很强的泛化能力）

补充

bagging（bootstrap重采样技术）：从数据集中有放回的取m次数据，得到一个包含m个数据的数据集。有的数据多次出现，有的从未出现。（大概有63.2%的数据会出现）

可以使用OOB（Out Of Bag）检测模型的泛化能力

xd_ljq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习1. 决策树/随机森林

决策树主要的问题如何选择分类属性？如何建立决策树？（相关指标？）如何停止分裂？
复制链接

扫一扫

专栏目录

机器学习1. 决策树/随机森林

决策树【笔记7】

相关定义和计算

熵

ID3 - 最大信息增益

C4.5 - 最大信息增益比

CART （Classification And Regression Tree）- 最大基尼指数

回归树

剪枝

预剪枝

后剪枝

其他

连续值处理（如数字）

缺失值处理

总结

随机森林

补充

机器学习1. 决策树/随机森林

决策树 【笔记7】

相关定义和计算

熵

ID3 - 最大信息增益

C4.5 - 最大信息增益比

CART （Classification And Regression Tree）- 最大基尼指数

回归树

剪枝

预剪枝

后剪枝

其他

连续值处理（如数字）

缺失值处理

总结

随机森林

补充

“相关推荐”对你有帮助么？

决策树【笔记7】