数据挖掘之决策树与决策规则

本文介绍了决策树和决策规则在数据挖掘中的重要性,特别是C4.5算法的原理和应用,包括如何处理缺失值、修剪决策树以提高模型质量,并探讨了决策树的优缺点及其局限性。
摘要由CSDN通过智能技术生成
  1. 决策树和决策规则是解决实际应用中分类问题的强大的数据挖掘方法
    一般来说,分类是一个学习函数的过程,该函数把数据项映射到其中一个预定义的类中,若一个样本集包含属性值向量和一个相应的类,则基于归纳学习算法的每个分类就指定为该样本集的输入,归纳学习的目标是构建一个分类模型,称为分类器,他可以更具有效的属性输入值预测某个实体所属的类,换句话说,分类是吧某个不连续的标识值(类)分配给未标识的记录的过程
    分类问题的更形象的方法是用图形来描述
  2. 具有N个特征的数据集可以看作N维空间中的离散点集
  3. 决策树
    从数据中生成分类器的一个特别有效的方法是生成决策树,通过一组输入输出样本构建决策树的有指导学习方法,是分类和回归的高效的非参数化方法,决策树是有指导学习的分层模型,他通过带检验函数的决策节点,在一些列地柜的分支处识别出局部区间,决策树也是一个非参数化模型,因为他没有给类的密度假设任何参数形式
    典型的决策树学习系统采用自上而下的方法,在部分搜索空间中搜索解决方案,他可以确保求出一个简单的决策树,但未必是最简单的
    要生成一元分支的决策树,一个著名的算法是ID3算法,他的一个改进版本叫C4.5,贪婪搜索法涉及生成和修建决策树的结构,它一般应用于这些算法,来探测可行模型的幂空间
    ID3算法在开始运行时,所有训练样本都位于树的根节点,该算法选取一个属性来区分这些样本,为每个属性建立一个分支,如果某样本自己的属性值等于分支指定的值,该样本自己就移到新生成的子节点上,这个算法递归的应用于每个子节点,直到一个节点上的所有样本都属于一个类为止
    ID3的扩展是C4.5算法,C4.5算法把分类范
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值