[机器学习]决策树&随机森林

决策树

  • 是贪心算法: 求局部最优解
  • 既能做分类,也能做回归(CART)
    ID3和C4.5只能做分类, CART算法是可以做分类,也可以做回归.

相关概念

  • 信息熵:衡量系统中随机事件得不确定性得度量.信息熵越小, 不确定性越小
  • 非线性有监督离散型分类模型
  • 无假设

划分标准

  • 决策树的一个关键问题是节点分裂特征的选择,根据不同的划分标准(criterion),提出了大量的决策树算法.
  • 原则:将无序的数据变得更加有序。

信息增益(ID3)

在这里插入图片描述

  • ID3 算法, 通过计算信息增益来确定哪个特征消除
    步骤:

    1. 分别计算信息增益
    2. 比较信息增益,哪个大先选哪个进行分类
    3. 将剩下的重复上面步骤1)和2)
  • 缺点:

    1. 优先对离散数据进行划分
    2. 存在大量对数运算

信息增益率(C4.5)

  • 是针对ID3缺点1的改进
  • 在计算信息增益的基础上,各自的信息增益除上各自特征本身的信息熵

基尼系数(CART)

  • Classification and Regression Tree
  • 针对ID3缺点2(大量对数运算)的改进:对数转平方
  • 必须是二叉树
  • 基尼系数越大, 系统越不确定,基尼系数越小,系统越确定.
  • gini = 1 - ∑p(xi)^2
  • 基尼系数 (0~1之间), 信息熵 > 0

过拟合处理

  • 剪枝
    1. 预剪枝: 参数控制树的生长
      当数据量小, 设置 max_depth
      当数据量大, 设置 min_samples_split(最小样本分割数)和min_samples_leaf(最小叶子节点数), 这两个参数一般是成倍关系
    2. 后剪枝

随机森林

  • 分类问题由森林中的每棵树的结果就是进行投票, 如果是回归问题, 对每棵树的结果取平均
  • 森林:由树组成 (由许多的决策树组成)
  • 非线性有监督离散型分类模型
  • 属于集成算法中的的: Bagging (bootstrap aggregating缩写, 自主采样法)
    • 集成算法:
      1. bagging 套袋法 代表算法是随机森林
      2. boosting 提升法 代表算法GBDT (Gradient Boosting Decision Tree)
      3. stacking 堆叠法
  • 随机: 生成树的数据都是从数据集中随机选取的
    1. 样本随机(行)
    2. 特征随机(列)
  • 训练后,会输出"特征重要新": rfc.feature_importances_
  • 一般不会单独使用决策树, 一般会使用随机森林
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值