利用决策树 ID3 算法进行预测

决策树是一种广泛应用于分类和预测的树状模型,通过信息熵和信息增益选择最佳属性进行数据划分。ID3算法是基于信息熵的决策树构建方法,适用于离散属性,对于连续属性需先离散化。Scikit_Learn库提供了实现ID3算法的接口,包括构建、训练决策树分类器,并能输出DOT格式进行可视化。在Python中,可以使用Pandas处理数据,通过Scikit_Learn的DecisionTreeClassifier进行训练和预测。
摘要由CSDN通过智能技术生成

决策树:

决策树方法在分类、预测、规则提取等领域被广泛应用

决策树是树状结构,它的每一个节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分城若干个子集。

构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。

对一个分类问题,从一直分类标价的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。

ID3算法:

基于信息熵来选择最佳测试属性。在每个非叶节点选择信息增益最大的属性作为测试属性,使分类后数据集的熵最小,从而得到较小的决策树(树的平均深度较小,从而提高分类效率)。

信息熵越小,信息增益越大,不确定性越小

Note:该算法只能处理离散属性,对于连续性的属性,在分类前需要对其进行离散化

 

 

  • ID3算法实现步骤:
  1. 对当前样本集合计算所有属性的信息增益;
  2. 选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
  3. 若子样本集的类倍数行只包含单个属性,则分支为椰子节点,判断其属性值并标上相应的符号,然后返回调用处; 否则对子样本集递归调用本算法。

 

 

实例:

import pandas as 
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值