经典决策树算法:ID3、C4.5和CART

本文详细介绍了三种经典的决策树算法:ID3、C4.5和CART。ID3使用信息增益选择特征,C4.5通过信息增益比克服ID3的偏向性,而CART则采用二叉树结构,适用于连续和离散属性。C4.5和CART对缺失值有较好的处理策略,同时CART还涉及了剪枝方法来防止过拟合。
摘要由CSDN通过智能技术生成

ID3:

ID3(Iterative Dichotomiser 3) 是一种基本的决策树算法。它可用于对只含离散属性的样本集的分类任务。ID3每次根据信息增益选择最佳划分属性,基于样本该属性值的不同,把样本划分到不同的子结点。任意两个叶结点包含的样本不重叠,所有叶结点包含的样本构成完整训练样本集。

算法步骤
1.计算属性集中每个属性对应的信息增益。选择最大信息增益对应的属性为当前结点的分割属性。
2.根据训练样本在分割属性上属性值的不同,把训练样本划分到不同的分支结点中。并从属性集中去掉当前分割属性。
3.判断每个分支结点是否满足终止条件,对每个不满足终止条件的分支结点重复步骤1和2。

终止条件:

  • 分支结点中所有训练样本都属于同一类
  • 当前属性集为空,或所有训练样本在所有属性上取值相同,则将该结点类别设定为样本最多的类别
  • 分支结点为空,则将其类别设定为父节点样本最多的类别

熵、信息增益和信息增益比:
1.熵:
熵表示随机变量的不确定性。熵越大,则随机变量的不确定性越大。对于离散变量,变量的取值可能越多,每个取值的概率越接近,则熵越大。

P(X=xi)=pi,i=1,2,...,n.

则熵
H(X)=i=1npilog1pi=i=1npilogpi

条件熵
H(Y|X)=i=1npiH(Y|X=xi)

2.信息增益与信息增益比
(1).符号:
D={ (xn,yn)|n=1,2,...,N} :训练样本集
{ Yi|i=1,...,S} :所有样本y值的集合
{ Aj|j=1,...,K} :所有样本属性A取值的集合
Di :所有y值等于 Yi 的训练集
Dj :所有属性A值为 Aj 的训练集
Dij :所有y值为 Yi 且属性A值为 Aj 的训练集合
|D| :样本集D中包含的样本个数

(2).已知数据集y值,求数据集的熵

H(D)=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值