机器学习——决策树和随机森林

决策树:从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归

决策树思想,实际上就是寻找最纯净的划分方法,这个最纯净在数学上叫纯度,纯度通俗点理解就是目标变量要分得足够开(y=1的和y=0的混到一起就会不纯)。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是,纯度的另一面也即不纯度,下面是不纯度的公式。不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法,比如ID3算法使用信息增益作为不纯度;C4.5算法使用信息增益率作为不纯度;CART算法使用基尼系数作为不纯度。

树的组成
              根节点:第一个选择点
             非叶子节点与分支:中间过程
             叶子节点:最终的决策结果

                                          

决策树的衡量标准——熵

熵:熵是表示随机变量不确定性的度量(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有
那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦)

我们在学习决策树的时候——如何决策一个节点的选择呢?

信息增益:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)

决策树剪枝策略
       为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据(想象一下,如果树足够庞大,每个叶子节点不就一个数据了嘛)
       剪枝策略:预剪枝,后剪枝
       预剪枝:边建立决策树边进行剪枝的操作(更实用)
       后剪枝:当建立完决策树后来进行剪枝操作

集成算法:

Bagging模型
                全称: bootstrap aggregation(说白了就是并行训练一堆分类器)
               最典型的代表就是随机森林啦
               森林:很多个决策树并行放在一起
               随机:数据采样随机,特征选择随机

                                

随机森林——构造树模型

随机森林优势
                    它能够处理很高维度(feature很多)的数据,并且不用做特征选择
                    在训练完后,它能够给出哪些feature比较重要
                    可以进行可视化展示,便于分析
                    容易做成并行化方法,速度比较快

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心驻彩云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值