机器学习--决策树(10)

本文详细介绍了决策树的基本概念,包括其定义、优缺点和决策过程。接着,探讨了ID3、C4.5和CART三种决策树生成算法,以及它们的信息熵、信息增益等关键概念。针对过拟合问题,提出了剪枝策略。最后,提到了sklearn库在决策树实现中的应用及参数配置,并讨论了如何绘制决策树。
摘要由CSDN通过智能技术生成

一、基本概念

1.1 是什么

分类决策树模型是一种描述对实例进行分类的树形结构,相当于if-then结构。决策树由节点和有向边构成。节点有两种:一种是内部节点,表示一个特征或者属性;另一种是叶子节点,表示一个决策结果。

1.2 优缺点

优点:模型具有可读性、分类速度快
缺点:容易产生过拟合

1.3 决策过程

从根节点开始,对实例的某一个属性进行分裂,根据分裂结果将实例分配到其子节点。这时,每一个子节点对应该特征的一个取值,如此递归的对实例进行测试分类,直至到达叶子节点。最后将实例分配到叶节点的类中。

可以看出它的流程基本遵循简单且直观的“分而治之”策略。

那么什么时候递归完成呢?
①、当前节点包含的样本集全属于同一类别
②、当前属性集为空
③、当前节点包含的样本集为空

1.4 目标

产生一颗泛化能力强的树,

二、决策树生成

2.1 ID3

①、熵
表示随机变量不确定性的度量
信息熵:度量样本集纯度常用的一种指标

公式:

对于离散随机变量X,信息为
在这里插入图片描述
信息熵为:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值