ID3 C4.5 CART决策树原理

一. ID3

1.1 信息增益

       ID3算法构建决策树的过程简单概括起来就是,自根结点开始,选择信息增益最大的特征作为根结点对应的特征,并依据该特征的可能取值将训练数据分配到不同的子结点,对子结点进行同样的操作,若子结点的所有样本属于同一类别或该子结点处所有特征的信息增益均小于给定阈值或无可供选择的特征,那么这个子结点是一个叶结点,将叶结点的样本数量最多的类别作为叶结点的类别。

在这里插入图片描述

1.2 损失函数

       通过信息增益特征选择构造的决策树往往能够对训练数据进行很准确的分类,但是应用于测试数据的分类时,效果往往不够理想,造成这种情况的一个重要原因是对训练数据的过拟合,就是过分在意对训练数据分类的准确性,导致模型过于复杂,普适性低,将这样的模型用于测试数据的分类时,效果就大打折扣。解决这个问题的方法是简化模型,剪掉决策树的某些枝,使模型的普适性提高。剪枝的方式是剪掉某些子树或叶结点,并将其父结点做为新的叶结点。要剪掉哪些枝是通过损失函数来确定的,其定义如下。
在这里插入图片描述

二. C4.5

2.1 信息增益比

<
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值