机器学习_西瓜书_C4决策树

大老猪

已于 2022-07-21 10:02:29 修改

阅读量431

点赞数

分类专栏：机器学习文章标签：决策树机器学习

于 2022-07-21 09:26:31 首次发布

本文链接：https://blog.csdn.net/d1596324/article/details/125905015

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

4.1 算法原理

决策树结构

结点非可分: 递归

结点可分：MAX结点纯度purity(单结点同类别)

4.2 划分方法

ID3决策树 Iterative Dichotomiser 迭代二分器 (离散值)

C4.5决策树 (连续值)

CART决策树 Classification And Regression Tree

4.3 剪枝pruning, 连续值, 缺失值

4.1 算法原理

决策树结构

根结点：样本全集D
内部结点：属性测试
叶结点：结果

递归(Recursion): 在函数的定义中使用函数自身的方法. 自己调用自己, 有去有回.

https://zh.wikipedia.org/zh/%E9%80%92%E5%BD%92

先验分布: 抽样前认知;

后验分布: 抽样后认知, 联合条件概率=总体+样本+先验.

贝叶斯统计——先验分布与后验分布_东皇太乙的博客-CSDN博客_已知先验分布求后验分布

结点非可分: 递归

不用分: 结点内样本全为同一类别
无法分: (后验分布) 属性A=∅ or 所有属性的样本全部相同
不能分: (先验分布) 结点内样本为空

结点可分：MAX结点纯度purity(单结点同类别)

ID3决策树
C4.5决策树
CART决策树

4.2 划分方法

ID3决策树 Iterative Dichotomiser 迭代二分器 (离散值)

衡量纯度指标

MIN 信息熵 info entropy ∈ [ 0 , log_2|y| ] 表示结果的不确定性,越小越好

MAX 信息增益 info gain 表示结果的收益性,越大越好

步骤

第一层: 好瓜/坏瓜
1. all 单属性`gain = 根`熵 - 累计(单属性`熵)
2. pick MAX(单属性`gain) 作为第二层 e.g.A4
第二层: A4
1. all except A4 单属性`gain = A4`熵 - 累计(单属性`熵).
2. pick MAX(单属性`gain) 作为第三层.
repeat

评价

序号也可作为属性, 虽然info gain明显大于其他属性(∵单结点单样本,纯度max), 但是不具备泛化能力.
info gain偏好可取纸数目多的属性, 直接使用不利

C4.5决策树 (连续值)

衡量纯度指标

增益率 gain ratio: 取代方法一info gain存在偏好的缺点

固有值 IV intrinsic value

评价

偏好可取值数目少的属性

非直接取MAX(gain ratio), 先find all 属性(ratio > AVG), 再 pick max

CART决策树 Classification And Regression Tree

衡量纯度指标

MIN 基尼值: 随机抽2样,类别不一致的概率,越小越好

描述数据集D

MIN 基尼指数 Gini index

描述属性a

4.3 剪枝pruning, 连续值, 缺失值

防止分支过多,过度拟合

预剪枝prepruning

划分前: 不能提升泛化性, 停止划分, 标记为叶结点end

判定能否提升泛化性: 使用C1性能评估方法, e.g.留出法

步骤

确认使用留出法, 随机选出验证集
选择属性, 基于max info gain, e.g."脐部"
标记训练集分类: 好瓜in凹陷TTTF→T, 稍凹TTFF→T*, 平坦FF→F (*标记某结点的类别时, 用样例中最多的那个类别, 一样多就任选)
匹配验证集分类: 凹凹稍稍平平凹, 按训练集标记为TTTTFFT, 实际TTTFFFF, 一致率5/7
判断是否执行划分: 算验证集精度(分类正确率), 划分后>前, 执行
1. 第一层(划分前) 好瓜T/坏瓜F: 验证集精度 = 3/7 = 42.9%
2. 第二层(划分后) 属性1脐部: 验证集精度 = 5/7 = 71.4% > 划分前42.9%
3. 执行用"脐部"划分
4. repeat
  1. 选择属性1-1, 基于max info gain, "脐部-凹陷"-色泽
  2. 标记训练集分类: 脐部-凹陷in绿T→T, 黑TT→T, 白F→F,
  3. 匹配验证集分类: 绿白绿, 按训练集标记为TFT, 实际TTF, 一致率2/3
  4. 判断是否执行划分:
    1. 第二层(划分前) 属性1脐部: 验证集精度 = 71.4%
    2. 第三层(划分后) "脐部-凹陷"-色泽: 验证集精度 = 57.1% < 划分前71.4%
    3. 不执行"脐部-凹陷"划分
    4. repeat
      1. 选择属性1-2, 基于max info gain, "脐部-稍凹"-根蒂
      2. ...划分后71.4% = 划分前, 不执行
      3. repeat
        选择属性1-3, "脐部-平坦", 训练集样例分类一致, 不执行划分