决策树、随机森林算法

本文详细介绍了决策树的构建过程,包括特征选择的熵和信息增益方法,以及CART算法和剪枝技术。同时,着重讨论了随机森林的概念,强调其在处理高维数据、特征重要性和并行化方面的优势。
摘要由CSDN通过智能技术生成

目录

决策树

随机森林


决策树

从根节点开始一步步走到叶子节点(决策),既可以做分类也可以做回归

树的组成:

根节点:第一个选择点

非叶子节点与分支:中间过程

叶子节点:最终的决策结果

如何切分特征(选择节点)

衡量标准-熵

通俗解释就是代表物体内部的混乱程度,熵值越大越混乱。在分类任务中,分类后某一组中同一类别的物体越纯(概率越高),熵值越低,所以熵值可以作为衡量标准

计算公式(pi表示分类完这一组中某一类别i):

信息增益:表示特征X使得类Y的不确定性减少的程度(分类后的专一性,希望分类后的结果还是同类在一起)

决策树就是根据信息增益来选择节点的

例子:

选择根节点(分别计算所有特征的信息增益,然后选择信息增益最大的特征)

如果是连续值,先对数据进行由小到大排序,再对每一个数据进行切分(二分),然后计算每一次切分的信息增益,选择信息增益最大的切分(连续值离散化)

信息增益(ID3)的问题:不能解决非常稀疏的特征(假设某个特征和编号一样,每一类都是不同的,此时熵计算就为0)

信息增益率(C4.5):解决ID3问题,考虑自身熵

CART(现在常用):使用GINI系数来当做衡量标准

决策树剪枝

原因:减少决策树过拟合风险(因为决策树足够庞大理论上可以完全分得开数据)

预剪枝:边建立决策树边进行剪枝操作(更实用)

限制深度,叶子节点个数,叶子节点样本数,信息增益量等

后剪枝:当建立完决策树后来进行剪枝操作

随机森林

随机:

数据采样随机——所有树模型的数据是相同的,因此为了让结果产生多样性,从总数据中随机取部分数据

特征选择随机——从总特征中随机取部分特征

森林:很多决策树并行放在一起(理论上越多树效果越好,但实际上超过一定数量就差不多上下浮动了)

优势:

1.它能够处理很高维度(feature很多)的数据,并且不用做特征选择

2.在训练完后,它能够给出哪些feature比较重要(Feature Importance)

3.容易做成并行化方法,速度比较快

4.可以进行可视化展示,便于分析

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值