【数据挖掘】分类之decision tree

45 篇文章 8 订阅 ¥19.90 ¥99.00

1. ID3 算法


ID3 算法是一种典型的决策树(decision tree)算法,C4.5, CART都是在其基础上发展而来。决策树的叶子节点表示类标号,非叶子节点作为属性测试条件。从树的根节点开始,将测试条件用于检验记录,根据测试结果选择恰当的分支;直至到达叶子节点,叶子节点的类标号即为该记录的类别。


ID3采用信息增益(information gain)作为分裂属性的度量,最佳分裂等价于求解最大的信息增益。

信息增益=parent节点熵 - 带权的子女节点的熵


ID3算法流程如下:</

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
决策树分类(Decision Tree Classification)是一种基于树结构的监督学习算法,可用于解决分类问题。决策树常用于数据挖掘和机器学习领域。 决策树的基本思想是将数据集分成更小的数据集,并在每个子集上递归地应用相同的过程,直到数据集中所有数据都属于同一别。决策树分类算法通过构建决策树模型来预测新数据的分类。 决策树分类的过程: 1. 选择最佳特征:根据数据集的特征,选择一个最佳特征作为根节点,将数据集划分为若干个子集。 2. 构建树结构:对于每个子集,重复步骤1和步骤2,直到所有的数据都被划分到同一别或无法再继续划分。 3. 预测新数据:使用构建的决策树模型对新数据进行分类。 决策树分类的优点: 1. 易于理解和解释:决策树的结构非常直观,易于解释和理解,可以帮助人们更好地理解数据。 2. 可以处理多种数据型:决策树可以处理多种数据型,包括数值型、别型和布尔型等。 3. 可以快速处理大量数据:决策树的训练和预测速度非常快,可以快速处理大量数据。 决策树分类的缺点: 1. 容易过拟合:决策树容易在训练数据上过拟合,导致模型泛化能力差。 2. 对于连续型变量有限制:决策树通常只适用于离散型变量,对于连续型变量的处理有限制。 3. 不稳定性:数据的微小变化可能导致决策树结构的大规模变化,因此,决策树算法不够稳定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值