机器学习 -- 《机器学习》(周志华)第四章笔记

机器学习 – 《机器学习》(周志华)第四章笔记

摘要

本章为决策树(decision tree)内容,决策树是一种较为常见的机器学习方法。决策树基于“树”型,是一种常见的自然判断,是一种“判定”的过程。

笔记

  1. 决策树 学习的目的是为了产生一个泛化能力强,也即是处理没有见过的示例的能力强的决策树

  2. 决策树基本流程遵循“分而治之”(divide-and-conquer) 策略

  3. 决策树过程:是一个递归过程,有三种情况会导致递归返回
    a. 当前节点包含的样本属于同一类别,不需要进行划分
    b. 当前属性集为空或者所以样本属性值相同
    c. 当前节点包含的样本集合为空,无法划分

  4. 信息熵(information entropy)是度量样本集合纯度的一种指标,纯度越高,说明决策树的分支结点包含的样本越多属于同一类别。计算方法
    信息熵

  5. 增益率
    信息增益会对取值数目较多的属性进行偏好选择,但此种选择并不利于进行决策,因此在更多时候选择使用“增益率” 来选择最优划分属性

  6. 基尼指数
    CART 决策树使用“基尼指数” 进行属性划分。

  7. 剪枝处理
    剪枝(pruning) 是用来处理过拟合的一种主要方法。因为决策树过程不断递归重复,就可能会出现枝条过多,从而出现过拟合的情况

  8. 剪枝测基本策略分为: “预剪枝” 和 “后剪枝”

  9. 预剪枝
    在生成过程中,划分前先进行估计,如果当前节点的划分不能带来决策树泛化性能提升,那么就停止划分

  10. 后剪枝
    当整个决策树已经生成,在叶子节点到根节点的方向对非叶子结点进行考察

  11. 连续值的处理
    在进行判定中,可以将连续值进行离散化

  12. 缺失值处理

    1. 可利用已知的属性值进行预判概率,从而进行划分处理

延伸

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值