6.1决策树算法概述

一、什么是决策树?
1、决策树算法的目的:通过向数据学习,获得输入变量和输出变量不同取值下 的数据分类和预测规律,并用于对新数据对象的分类预测。(决策树能够依据新数据输入变量的取值,推断其输出变量的分类取值)

2、决策树结构:根节点——>内部节点——>叶节点
同层节点称为兄弟节点
树的每个节点都只能生长出两个分枝的树为二叉树,如果能够长出多于两个分枝,则称为多叉树。

3、决策树种类:
3.1、按输出变量类型划分(分类型输出变量、数值型输出变量)
3.11、分类树(分类决策树)
分类树实现对分类型输出变量的分类,其结果在决策树的叶节点上;分类树叶节点所含样本中,其输出变量的众数类别就是分类结果

3.12、回归树(回归决策树)
回归树完成对数值型输出变量取值的预测,其结果也在决策树的叶节点上;回归树叶节点所含样本中,其输出变量的平均值就是预测结果。

3.2按决策树的内部节点的各种不同的属性划分:
3.21、单变量决策树:决策树的每一个内部节点都只包含一个属性
多变量决策树:决策树存在包含多个变量的内部节点
3.22、二叉决策树:树的每个节点都只能生长出两个分枝的树
多叉决策树:能够长出多于两个分支的树。
3.23、布尔决策树:分类的结果只有两类,即输出变量(叶节点)有两种

对新数据进行分类预测时,只需按照决策树的层次,从根节点开始对新数据输入变量值进行判断并进入不同的决策树分枝,直至叶节点为止。

4、决策树算法特征:4.1、属于有指导的学习,要求数据既包含输入变量也包含输出变量。
4.2、它的预测是基于逻辑的,即通过对输入变量取值的布尔比较(逻辑比较)实现对输出变量的分类预测。

5、决策树算法的核心问题——决策树的生长问题和决策树的剪枝问题
5.1、决策树的生长问题
1)决策树的生长过程本质是对训练样本的反复分组过程。决策树的各个分枝是在数据的不断分组的过程中逐渐生长出来的。当对某组数据的继续分组不再有意义时,决策树对应的分枝便不再生长;当对所有数据组的继续分组均不再有意义时,决策树的生长过程宣告结束。此时,一颗完整的决策树便形成了。
2)决策树生长的核心算法是确定数据分组的标准即决策树的分枝准则

用流程图来描述如下:
决策树生长示意图

其中差异下降显著是指:分组样本中输出变量取值的差异性是否随着决策树的生长(分组的进行)而显著减少。有效的决策树分组应当使枝(组)样本中的输出变量取值尽快趋同,差异迅速下降。达到叶节点的一般标准是节点中样本的输出变量均为相同,或达到用户指定的决策树停止生长标准。

不同的决策树算法采用不同的分支指标
ID3、C4.5使用指标是信息增益 CART算法、SLIQ算法和SPRINT算法使用的是gini指标,这些指标决定了在哪个属性处发生分裂

5.2、决策树的修剪
完整的决策树并不是一颗分类预测新数据对象的最佳书,主要原因是完整的决策树对训练样本特征的描述“过于精确”,随着决策树的生长和样本数量的不断减少,越深层次的节点所体现的数据特征越个性化,一般性就越差。

决策树修剪技术有
1)预修剪:主要用来限制决策树的充分生长,最直接方法可以是事先指定决策树生长的最大深度,或者为防止某个树节点上的样本数过少,事先指定一个最小样本量。再根据一定规则

2)后修剪:从另一个角度解决过度拟合问题,它允许在决策树充分生长的基础上,再根据一定规则剪去决策树中那些不具有一般代表性的子树,是一个边修剪边检验的过程。在剪枝过程中,它不断计算当前决策树对输出变量的预测精度或误差,用户可以事先指定一个允许的最大错误率,当剪枝达到某个深度时,当前的错误率高于允许的最大值,则应立即停止剪枝。
注意:基于训练样本集的后修剪是不恰当的,因为决策树是在训练样本集上建立的,因此合理做法是利用检验样本集对剪枝效果进行验证。当错误率明显增大时,应当停止剪枝

6、决策树算法缺点:

6.1、不易处理连续性数据
6.2、数据的属性域必须被划分为不同的类别才能处理,有时这样的划分比较困难
6.3、决策过程忽略了字段属性之间的相关性等
6.4、在处理大数据库算法时额外开销比较大,降低了分类的准确性
6.5、数据复杂性提高,分支数增加,管理的难度会越来越大

7、数决策树算法需要面临的问题:
1)择分裂属性:在构建决策树的过程中,哪个属性作为分裂属性会影响算法的性能。属性的选择不仅涉及检验训练集中的数据,而且还需要参考领域专家的建议
2)裂属性的次序:选择分裂属性的次序也是很重要,较好的分裂次序可以减少算法量
3)裂的数目:选择分裂属性的次序相应的是确定分裂的数目。分裂的数目要根据属性的定义域来确定
4)的结构:为了改进应用树进行分类的性能,总是希望得到具有最少层次的平衡树
5)训练数据被正确分类时,树的产生过程就应停止。为了防止过大的树或产生过拟合,有时也希望提前停止。提前停止指标需综合考虑分类精度和性能等多个因素
6)练数据:产生的决策树的结构取决于训练数据。如果训练数据集太小,则产生的树由于没有足够的特殊性,而不能很好的应用于更加通用的数据。如果训练数据集太大,
则产生的树可能产生过拟合。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值