决策树总结

主要是根据下面列出的参考资料对决策树进行了一些总结,主要用于自己复习,有不对的地方欢迎指正。西瓜书上有一些计算的举例可以参考理解。

  • 参考资料
  • 基本概念
    • 组成
      • 根节点,叶节点,内部节点
        • 每个叶节点对应一个决策结果,其他节点对应一个属性测试。
        • 根节点包含样本全集,其他节点(子节点)包含的样本集根据父节点属性测试的结果分配到子节点中。
        • 从根节点到每个叶节点的路径对应一个判定测试序列。
      • 目标:选择最优划分属性。随着划分过程的不断进行,希望决策树的分支节点所包含的样本尽可能属于同一类别,即纯度purity越来越高。划分完成的三种标志:
        • 当前节点包含的样本全属于同一类别,无需划分
        • 当前属性集为空(即数据集已经根据所有的特征划分过了,已无属性可再划分)
        • 所有样本在所有属性上取值相同,无法划分
        • 当前节点包含的样本集合为空,无法划分
  • 特征划分算法:
    • ID3
      • 划分指标:信息增益
        • 定义:
          • a为选定的下一步进行划分的属性,V为分支节点个数,即a属性的V种取值,信息增益即为划分前数据的混乱度与按照属性a划分后的混乱度之差。信息增益越大,意味着使用a属性划分提升的纯度越高,对提升纯度最有帮助的属性则为下一步划分的属性。其中,划分后某一取值自身的信息熵Ent(D^v)需乘以分支节点的权重D^v/D,样本数越多的节点影响力越大。
          • Ent(D)为上一层划分结束后的信息熵,p为样本中分类为正/负例的概率。Ent(D<sup>v</sup>)为以属性a中取值v的信息熵,p为取值v下分类为正/负样本的概率。Ent(D^v)的权重为
          • 信息熵定义:
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值