决策树id3算法_ID3、C4.5、CART经典决策树算法

e94c56aa6122cbdec900640b71442cd5.png

本文主要介绍的主要内容如下:

  • 概念
  • ID3 决策树算法
  • C4.5 决策树算法
  • CART 决策树算法

1. 概念

1.1 信息熵

信息熵(Entropy),随机变量的不确定性,也称为“系统混乱程度”,它是度量样本集和纯度最常用的一种指标。假定当前样本集和 D 中第 k 类样本所占的比例为 pk(k=1,2,...,|y|) ,则 的信息熵定义

213e69747f79975a255509c6a28df512.png

1.2 条件信息熵

条件信息熵(Conditional Entrop),样本和 D 在某个离散特征 F 的可能属性取值 v(v=1,2,...V) 对样本进行划分,其中中 Dv 表示离散特征 F 第 v 个属性上的样本数量,所以条件信息熵为

c3146058b4ffbcf819b318dd87a1a29e.png

1.3 信息增益

信息增益(Information Gain),一般而言,如果信息增益越大,则意味着使用特征 来进行划分后获得的“纯度提升”越大。所以我们可以依据信息增益来进行决策树的划分特征选择。

1874918e7683bc583f36877d0762a163.png

2. ID3 决策树算法

2.1 ID3 决策树算法流程

ID3 决策树算法就是以信息增益为准则来选择划分的特征。下面举例说明 ID3 的计算过程,假设有如下数据集:

32e458123a0378bce131d5894e12da8b.png

这个数据集的信息熵为:

e6f0d0c47f9cfd267c3b25c62983f285.png

计算数据集的条件信息熵:

81a430977268468787449b8247e0ee25.png

其中

a4c08c82174ad41dd36388ef6abef8dc.png

最终得到:

5f6149cb4252c9af99cf9a4b923673d1.png

使用同样的流程方法,我们可以求得:

b912631a9709b8e24e23f6b1ee54ac12.png

然后计算信息增益,得到:

aaec209abb76c2847764eeab320d5c72.png

从得到的结果来看,我们应当选择 appearance 特征来进行第一次的划分,此时数据集和 D 被划分成了三个新的数据集和,三个数据集合用同样的方式来进行划分。

2.2 ID3 决策树算法的优缺点

优点:

  • 具有较强的解释性
  • 可以用作分类和回归

缺点:

  • 容易过拟合
  • 容易陷入局部最优算法更加
  • 容易选择属性多的特征

3. C4.5 决策树算法

我们看到 ID3 算法更加容易选择属性多的特征,如果我们将之前的 ID 也作为一个特征,以这个特征来计算信息增益会达到最大值 0.94 ,那么决策树一开始就会将其划分成14个分支,每个分支仅有一个节点,很显然该决策树没有泛化能力。

所以出现了 C4.5 决策树算法,该算法不使用信息增益而是使用最大的增益率来选择最优划分的特征。

b71b966cdfaf081de88bcd3c40c69590.png

其中

c589bb6db88314669440ba5626428f67.png

4. CART 决策树算法和使用的是

CART 决策树算法和 C4.5 以及 ID3 决策树算法有所不同,它使用的是“基尼指数”来选择划分的特征。

fc2fe37981f69f05ce004533a851353a.png

Gini(D) 反映的是从数据集 中随机抽取两个样本,其类别标记不一致的概率,因此 Gini(D)越小,说明数据集 D 的纯度越高。那么特征 的基尼指数定义为:

223747d890f7e1a9e8839df1ce2e7e25.png

所以我们只要选择划分后基尼指数最小的那个特征作为最优划分特征即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值