Chapter 5 决策树和随机森林实践

最新推荐文章于 2024-10-18 16:15:00 发布

桑之未落0208

最新推荐文章于 2024-10-18 16:15:00 发布

阅读量245

点赞数

分类专栏：机器学习——算法进阶文章标签：决策树随机森林机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwertyuiop0208/article/details/125984320

版权

机器学习——算法进阶专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文探讨了决策树过拟合的问题及其解决方案，如剪枝和合理抽样，并介绍了随机森林的概念，包括其与决策树的关系、在回归问题中的应用以及如何通过随机森林计算样本间相似度和特征重要性。此外，还提到了孤立森林用于异常值检测的方法。随机森林的集成思想被广泛应用于多种分类器设计中。

摘要由CSDN通过智能技术生成

1 决策树的过拟合问题

1.1 问题描述

决策树对训练属于有很好的分类能力，但是对未知的测试数据未必有好的分类能力，泛化能力弱，即可能发生过拟合现象。

1.2 解决方法

（1）剪枝

（2）合理有效抽样

bagging:

OOB数据

随机森林

随机森林/Bagging与决策树的关系

决策树是基础分类器；

SVM、Logistic回归等其他分类器组成“总分类器”，叫做随机森林。

举例：回归问题

2 回归

2.1 算法过程

做100次bootstrap，每次得到的数据Di（Di的长度为N）。对于每个Di，使用局部回归（LOESS）拟合成一条曲线。然后将这些曲线取平均，得到最终的最终拟合曲线，该曲线过拟合情况是减弱的。

2.2 举例

投票：（1）简单投票机制：一票否决、少数服从多数、阈值表决（2）贝叶斯投票机制

电影评价：使得 $v/m$ 尽可能大。

3 随机森林的用途

3.1 使用随机森林计算样本间相似度

原理：若两样本同时出现在相同叶结点的次数越多，则两者越相似。

算法过程：记样本个数为N，初始化NXN的零矩阵S，S[i,j]表示样本i和j的相似度。对于m棵决策树形成的随机森林，遍历所有决策树的所有叶子结点（样本i,j出现在相同的结点，则s[i,j]加1）。遍历结束，S为样本间相似度矩阵。

3.2 使用随机森林计算特征重要性

（1）计算正例经过的结点，使用经过结点的数目、gini系数和等指标来判断特征的重要性。

（2）随机替换一列数据，重新建立决策树，计算新模型的正确率变化来判断这一列的特征的重要性。

3.3 孤立森林

孤立森林（Isolation Forest）通过对样本点的孤立来检测异常值。

特征、分割点都随机选择，然后生成一定深度的决策树iTree，若干棵iTree组成iForest。

先计算iTree中样本从根到叶子的长度f(x)，然后计算iForest中f(x)的总和F(x)。

检测标准：F(x)较小的样本x为异常值。

总结

决策树/随机森林的代码清晰、逻辑简单，在胜任分类问题的同时，往往也可以作为对数据分布探索的首要尝试算法。

随机森林的集成思想也可用在其他分类器的设计中。

桑之未落0208

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。