决策树(一):分类决策树

本文介绍了决策树的基本概念,包括分类决策树的性质和适用数据类型。讲解了决策树的学习过程,涉及特征选择、决策树生成和剪枝,以避免过拟合并提升泛化能力。信息增益熵和信息增益比被用于特征选择,ID3和C4.5算法用于决策树生成。最后讨论了决策树的剪枝策略,通过损失函数衡量模型复杂度与训练数据的拟合程度。
摘要由CSDN通过智能技术生成

决策树模型就是需要通过样本数据构建一棵树,数中除了叶子节点的每个节点都是一个数据特征的划分点,将待测数据的对应的特征和该节点上的划分特征做对比,然后将待测节点分到该节点的某个子节点上,然后再进行对比,直到叶子节点为止,然后判断待测数据的类型集合。

决策树是一种基本的分类和回归的方法,所以可以分为分类决策树和回归决策树。分类决策树主要适用于标称型数据(如苹果的颜色、形状、口味等特征数据),可以理解为非数值化的,回归树就适用于数值型数据,可以是连续型的数据。

决策树的学习过程是利用样本数据,依据损失函数最小化的原则建立决策树模型,其学习过程分为特征选择、决策树生成、决策树剪枝。特征选择就是依据损失最小化选择当前节点的划分标准是依据那个特征划分的;决策树的生成就是对每个节点选择合适的划分特征,直到结束的过程;决策树的剪枝就是防止过拟合,增加决策树泛化能力的过程。

下面先介绍分类回归树:

  1. 特征选择

    特征选择就是为当前节点选择合适的划分属性,以符合损失最小的原则。通常在分类回归树的特征选择过程用到的是信息增益熵和信息增益比。

信息增益熵:

    先从信息熵说起。在信息论与统计中,熵是随机变量不确定的度量。设X为随机变量,其概率分布为P(X=xi) = pi则X对应的信息熵为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值