决策树分类算法

本文介绍了决策树模型,包括内部结点和叶子节点的概念,并解释了如何将其视为一系列的“if-then”规则。接着,文章阐述了决策树学习过程,涉及到特征选择、决策树生成和剪枝,以防止过拟合。特征选择通过信息增益和信息增益比来衡量,ID3和C4.5算法分别基于这两个指标。最后,讨论了ID3算法的构建步骤,并提到了决策树可能面临的过拟合问题及解决方案。
摘要由CSDN通过智能技术生成

一、决策树模型

决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。

结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子

节点表示实例的类别(class)。一颗典型的决策树如下图所示:


      可以将决策树看成是一个“if-then”规则的集合,决策树的每条路径就是一条规则,路径上的内

部节点表示样本的特征,有向边表示对特征的判断条件,最后的叶子节点表示样本的类别。


二、决策树学习

      决策树学习本质上是从训练样本集中归纳出一组分类规则,我们需要得到一个与训练数据差别

最小、泛化能力强的决策树模型。决策树学习通常是一个递归的选择最优特征,并根据该特征对训

练数据集进行分割,使得对各个子数据集有最好分类的一个过程。这种方法虽然对训练数据有很好

的分类能力,但是对未知的测试数据却未必会有很好的分类能力,可能会发生过拟合现象。为了抑

制过拟合,需要对生成的决策树进行“剪枝”,使得树变得更简单,使其具有更好的泛化能力。

      如果特征过多,也可以在决策树学习开始的时候,对特征进行选择,只留下对训练数据有很好

的分类能力的特征。特征选择是特征工程的重要问题(特征选择+特征提取)。

      可以看出,决策树学习包括:特征选择、生成决策树、剪枝这3步。目前常用的学习算法有ID3

C4.5(或C5.0)


三、特征选择

      特征选择,是选取对训练数据有较好分类能力的特征,这样可以提高机器学习的效率。如果用

一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征没有分类能力,扔掉这些

特征对分类没有影响,最终只保留有分类能力的特征。特征选择的准则通常是:信息增益信息增

益比

1、熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值