决策树模型-理论基础

分类决策树是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部节点(internal node)和叶节点(leaf node),内部结点表示一个特性或属性,也结点表示一个类。
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,每一个子节点对应着特征的一个取值。如此递归地对实例进行测试并分配,直到达到叶节点。最后将实例分到叶节点的类中。决策树学习的目的就是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略。

在这里插入图片描述
决策树的生成是一个递归过程,在决策树基本算法中,有三种情形会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分。

信息增益

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基尼系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

剪枝处理

剪枝(pruning)是决策树学习算法应对“过拟合”的主要方法。在决策树学习中,为了尽可能正确分类训练样本,结点划分有时会造成决策树分支过多,导致把训练集自身的一些特点当作所有数据具有的一般性质导致过拟合。
决策树剪枝的基本策略有“预剪枝(prepruning)”和“后剪枝(post-pruning)”,预剪枝指决策树生成过程中,对每个结点进行估计,若结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶节点;后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上的对非叶子节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值