cart算法_ID3、C4.5、CART决策树算法

d1e482765a8a565b788526a3271294f0.png

本文主要介绍的主要内容如下:

  • 概念
  • ID3 决策树算法
  • C4.5 决策树算法
  • CART 决策树算法

1. 概念

1.1 信息熵

信息熵(Entropy),随机变量的不确定性,也称为“系统混乱程度”,它是度量样本集和纯度最常用的一种指标。假定当前样本集和

中第
类样本所占的比例为
,则
的信息熵定义为

1.2 条件信息熵

条件信息熵(Conditional Entrop),样本集和

在某个离散特征
的可能属性取值
对样本进行划分,其中
表示离散特征
个属性上的样本数量,所以条件信息熵为

1.3 信息增益

信息增益(Information Gain),一般而言,如果信息增益越大,则意味着使用特征

来进行划分后获得的“纯度提升”越大。所以我们可以依据信息增益来进行决策树的划分特征选择。

2. ID3 决策树算法

2.1 ID3 决策树算法流程

ID3 决策树算法就是以信息增益为准则来选择划分的特征。

下面举例说明 ID3 的计算过程,假设有如下数据集:

8f38531d1f630005a1db781fa7b9cd35.png

这个数据集的信息熵为:

计算数据集的条件信息熵:

其中

最终得到:

使用同样的流程方法,我们可以求得:

然后计算信息增益,得到:

从得到的结果来看,我们应当选择 appearance 特征来进行第一次的划分,此时数据集和

被划分成了三个新的数据集和,三个数据集合用同样的方式来进行划分。

2.2 ID3 决策树算法的优缺点

优点:

  • 具有较强的解释性
  • 可以用作分类和回归

缺点:

  • 容易过拟合
  • 容易陷入局部最优
  • 算法更加容易选择属性多的特征

3. C4.5 决策树算法

我们看到 ID3 算法更加容易选择属性多的特征,如果我们将之前的 ID 也作为一个特征,以这个特征来计算信息增益会达到最大值 0.94 ,那么决策树一开始就会将其划分成14个分支,每个分支仅有一个节点,很显然该决策树没有泛化能力。

所以出现了 C4.5 决策树算法,该算法不使用信息增益而是使用最大的增益率来选择最优划分的特征。

其中

4. CART 决策树算法和使用的是

CART 决策树算法和 C4.5 以及 ID3 决策树算法有所不同,它使用的是“基尼指数”来选择划分的特征。

反映的是从数据集
中随机抽取两个样本,其类别标记不一致的概率,因此
越小,说明数据集
的纯度越高。那么特征
的基尼指数定义为:

所以我们只要选择划分后基尼指数最小的那个特征作为最优划分特征即可。


微信公众号:PyMachine

e0533e68323ffd033ebe116e46e5e363.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值