机器学习进阶(5):决策树的一些Tips

这篇笔记探讨了决策树、随机森林及其与其他弱分类器的关系。随机森林中,每个决策树的训练样本和特征选择都是随机的,这种特性使得随机森林具有较高的准确性和无偏估计能力。此外,介绍了处理样本不平衡问题的策略,包括降采样、过采样和数据合成。在决策树回归中,通过平均值来确定节点输出。
摘要由CSDN通过智能技术生成

前言

一些决策树相关的笔记,有兴趣的同学可以看看。

Tips

  1. 决策树是弱分类器,而SVM和LR是强分类器,Bagging 更适合弱分类器。

  2. 参与决策树生成的数据叫做bag,其他叫做 Out of Bag(OBB),OBB数据可以用于取代测试集用于误差估计,精度和同规模的测试集精度相同。这样得到的参数模型是无偏估计。

  3. 随机森林的里DT1和DT2的训练样本都是不同的。在样本和特征的角度都加入随机性,特征也是起始随机选取。

  4. 随机森林/Bagging和决策树的关系:基础分类器除了选择决策树也可以选择例如Logistic回归等分类器,仍然可以认为是“Random Forest”。

  5. 随机森林的里DT1和DT2的训练样本都是不同的。在样本和特征的角度都加入随机性,特征也是起始随机选取。

  6. 样本不均衡的常用处理方法:A. 降采样:随机降采样;将多的样分为若干子类,再分别进入ML模型;基于聚类的分割。B. 过采样:将过少的样本重复采样。C. 数据合成:将过少的样本随机插值合成;D. 代价敏感学习:调整类的权重。

  7. 决策树做回归的方法:本质是求均值,在决策树左右两端的数据都归为这一端的均值。用这张图可以显示出来,红色的线为树深度为2时的回归曲线,那么其叶子结点为4,可以观察到拟合的数据被切割了4次。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值