决策树的构建

本文介绍了决策树的构建过程,包括信息增益的概念、决策树的构建步骤,以及一个实例说明。通过计算Shannon熵选择最优属性标签,并提供代码实现,详细解释了如何递归创建决策树并进行新数据的预测。
摘要由CSDN通过智能技术生成

(项目地址:https://github.com/ChanKamShing/decisionTree.git

一、概念

        决策树可分为两类:回归决策树和分类决策树。

  • 回归决策树:对连续变量构建决策树;
  • 分类决策树:对离散变量构建决策树。

1、信息增益

        决策树必须涉及到一个概念,就是信息增益。信息增益又基于信息熵的知识(可参考里面关于信息熵的部分内容:https://blog.csdn.net/weixin_39400271/article/details/100921346)。

信息增益(Information Gain)的公式:g(D|A) = E(D) - E(D|A)

式中,E(D)为全信息量的信息熵,E(D|A)为属性A的信息熵。

        在决定树的前后节点的时候,会涉及到最优信息增益的问题,根据信息增益的大小排序。

2、决策树的构建过程

  1. 树从代表训练样本的根节点开始;
  2. 如果样本都在同一个类中,则该节点为树叶,并用该类标记;
  3. 否则,算法选择最有分类能力的属性作为决策树的当前节点;
  4. 根据当前决策节点属性取值的不同,将训练样本数据集data分为若干个子集,每个取值形成一个分支,有几个取值就形成几个分支;
  5. 针对步骤4得到一个子集,重复步骤1、2、3,递归形成每个划分样本的决策树。一旦一个属性只出现在一个节点上,就不必在该节点的任何子节点考虑它。

递归划分步骤的终止条件为:

  • 给定节点的所有样本属于同一类。
  • 没有剩余属性可以用来进一步划分样本。在这种情况下,使用多数表决,将给定的点转成树叶,并以样本中元组个数最多的类别为类别标记,同时也可以存放该节点样本的类别分布。
  • 如果某一分支没有满足分支中已有分类的样本,则以样本的多数类创建一个树叶。

以上任一条件成立,都会终止递归。

二、实例说明

天气 温度 湿度 风速 是否举办活动
炎热
炎热
炎热
寒冷 正常
寒冷 正常
寒冷 正常
适中
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值