【机器学习学习笔记】第四章-描述决策树及预剪枝、后剪枝

描述决策树,对应《机器学习》周志华,第四章
数据结构中树的概念
树(Tree)是n个结点的有限集。任意一棵非空树中
(1)有且仅有一个特定的结点被称作根结点
(2)n>1,其余结点可分为m个互不相交的有限集T1,T2,……Tn,每个集合本身又是一棵树.
决策树
一般的,决策树包含一个根节点,若干个内部节点和若干个叶子节点,叶节点对应着一个决策树所描述的样本的一个决策结果,其他的每个节点对应了一个属性测试。决策树和数据结构中对“树”这一结构的遍历方式相同,因此它的生成是一个递归过程
1、(1)集合中包含的样本为同一类别
(2)属性集为空
(3)结点的样本集合为空;以上三种情况会导致递归返回(结点没有子树)。
划分选择即选择最优的划分属性,根据信息增益测算某一属性对样本进行划分的“纯度”,信息增益越高,“纯度”越高;
C4.5算法使用“增益率“这一概念对应了选择最优划分属性的依据,对属性a,属性a的取值数目越多,其增益率的值越大。
CART决策树使用基尼系数划分属性。基尼系数的直接意义是“从数据集中随机抽取两个样本,其类别标记不一致的概率,Gini(D)越小,纯度越高。
如图4-4所示
2、(1)现根据数据集给出的信息选定一个Gain(D,&

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值