机器学习——决策树和随机森林

最新推荐文章于 2024-04-30 18:18:03 发布

心驻彩云

最新推荐文章于 2024-04-30 18:18:03 发布

阅读量682

点赞数

分类专栏：机器学习文章标签：机器学习随机森林决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liushuichengshang/article/details/81745453

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

决策树：从根节点开始一步步走到叶子节点（决策），所有的数据最终都会落到叶子节点，既可以做分类也可以做回归

决策树思想，实际上就是寻找最纯净的划分方法，这个最纯净在数学上叫纯度，纯度通俗点理解就是目标变量要分得足够开（y=1的和y=0的混到一起就会不纯）。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是，纯度的另一面也即不纯度，下面是不纯度的公式。不纯度的选取有多种方法，每种方法也就形成了不同的决策树方法，比如ID3算法使用信息增益作为不纯度；C4.5算法使用信息增益率作为不纯度；CART算法使用基尼系数作为不纯度。

树的组成
根节点：第一个选择点
非叶子节点与分支：中间过程
叶子节点：最终的决策结果

决策树的衡量标准——熵

熵：熵是表示随机变量不确定性的度量（解释：说白了就是物体内部的混乱程度，比如杂货市场里面什么都有
那肯定混乱呀，专卖店里面只卖一个牌子的那就稳定多啦）

我们在学习决策树的时候——如何决策一个节点的选择呢？

信息增益：表示特征X使得类Y的不确定性减少的程度。（分类后的专一性，希望分类后的结果是同类在一起）

决策树剪枝策略
为什么要剪枝：决策树过拟合风险很大，理论上可以完全分得开数据（想象一下，如果树足够庞大，每个叶子节点不就一个数据了嘛）
剪枝策略：预剪枝，后剪枝
预剪枝：边建立决策树边进行剪枝的操作（更实用）
后剪枝：当建立完决策树后来进行剪枝操作

集成算法：

Bagging模型
全称： bootstrap aggregation（说白了就是并行训练一堆分类器）
最典型的代表就是随机森林啦
森林：很多个决策树并行放在一起
随机：数据采样随机，特征选择随机

随机森林——构造树模型

随机森林优势
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
可以进行可视化展示，便于分析
容易做成并行化方法，速度比较快

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习——决策树和随机森林

决策树：从根节点开始一步步走到叶子节点（决策），所有的数据最终都会落到叶子节点，既可以做分类也可以做回归决策树思想，实际上就是寻找最纯净的划分方法，这个最纯净在数学上叫纯度，纯度通俗点理解就是目标变量要分得足够开（y=1的和y=0的混到一起就会不纯）。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是，纯度的另一面也即不纯度，下面是不纯度的公式。不纯度的选取有多种方法，每种方法也...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心驻彩云 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。