【机器学习-西瓜书】第4章-决策树

结合李航老师《统计学习方法》,笔记参见【统计机器学习-李航】第5章 决策树

4.1 导入

一棵决策树包含一个根节点、若干个内部节点(对应于属性测试)和叶节点(对应于决策结果);

从根节点 到 每个叶节点的路径对应了一个 判定测试序列。决策树学习的目的是 产生一颗泛化能力强的决策树,基本流程遵循 简单且直观的“分而治之 (divide-and-conquer)” 策略。

输入:训练集 D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \};\\

        属性集 A=\left \{ a_{1}, a_{2},..., a_{d}\right \}

过程:

定义 函数TreeGenerate (D, A):

        生成节点node;

        if D中样本全部属于同一个类别C then

                将node标记为C类叶节点;return

        end if

        if A = \varnothing or D中样本在A上取值相同 then

                将node标记为 叶节点,其类别标记为D中样本数 最多的类;return

        end if

        从A中 选择最优划分属性a^{\ast } ;     # 这一步是十分关键,那么如何选择最优划分属性?参见4.2

        for a^{\ast } 的每一个取值 a_{\ast }^{v} do

                为node生成一个分支;令 D_{v} 表示D中 在a^{\ast }上取值为 a_{\ast }^{v} 的样本子集;

                if D_{v} 为空 then

                        将分支结点标记为叶节点,其类别标记为 D 中样本最多的类;return

                else

                        以 TreeGenerator (D_{v}, A \ { a^{\ast }}) 为分支结点

                end if

        end for

输出:以node为根结点的一棵决策树

决策树的生成过程是一个递归过程。过程中碰到以下三种情形,则进行递归:

  1. 当前结点包含的样本 全部属于同一类别,无需划分;
  2. 当前属性集为空,或 所有样本在所有属性上取值相同,无法划分;
  3. 当前结点包含的样本集合为空,不能划分

4.2 划分选择

我们希望 决策树的分支结点包含的样本尽可能属于同一个类别,即结点的纯度越高越好

4.2.1 信息增益

信息熵 (information entropy)&#x

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值