数据挖掘:模型选择——树模型

本文详细介绍了决策树的学习过程,包括特征选择、决策树的生成和剪枝。讲解了ID3、C4.5和CART算法,强调了CART作为二叉树模型在计算效率上的优势。同时讨论了决策树对数据质量的要求不高,以及在处理离散和连续数据时的方法。最后提到了决策树的过拟合问题和剪枝策略。
摘要由CSDN通过智能技术生成

决策树

决策树:是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。
先举个很直观的例子,有如下的一个数据表,根据其中的信息来判断是否去打球。
在这里插入图片描述
要根据以往的信息,来判断新的信息属于哪种情况,然后得出结论。但是单纯地从这张表上看,感觉会特别繁琐。于是人们想到了用决策树来处理这种情况,if-then的结构人们也比较容易直观理解。
在这里插入图片描述
这里给出关于决策树节点的一些概念。
在这里插入图片描述
决策树学习通常包括 3 个步骤:特征选择、决策树的生成和决策树的修剪。其中特征选择和决策树剪枝是核心问题。

特征选择

不纯度

决策树需要找出最佳节点和最佳的分枝方法,而衡量这个“最佳”的指标叫做“不纯度”。不纯度基于叶子节点来计算的.
在这里插入图片描述
因为分类型决策树在叶子节点上的决策规则是少数服从多数,如果一个叶子节点上,某一类别占比90%,那么我们倾向于该类别,样本被判错的概率就很低;若某一类别占比51%,另一类别占比49%,那么样本被判错的概率就很高。因此,不纯度越低,决策树对训练集的拟合越好。那么如何来衡量不纯度呢?这里引入熵的概念。

熵和Gini指数

熵一种信息的度量方式,表示信息的混乱程度信息越有序,信息熵越低。以下是熵的计算公式。t代表决策树的某节点, 设p(i|t)表示给定结
点t中属于类别i的样本所占的比例,这个比例越高,节点越纯。
在这里插入图片描述
另一个指标则是Gini(基尼)指数,主要用于CART决策树的纯度判定中,基尼指数越大,样本集合的不确定性越大。其公式为:
在这里插入图片描述
用下面这个例子来说明下不纯度的计算:
在这里插入图片描述
在这里插入图片描述
决策树最终的优化目标是使得叶节点的总不纯度最低,即对应衡量不纯度的指标最低
采用不同的方法来衡量不纯度,会产生不同的决策树。主要有ID3,C4.5,CART分类回归树。

ID3

ID3决策树采用信息熵来衡量不纯度࿰

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值