决策树之ID3算法

树模型一直以来都颇受学界和业界的重视。目前无论是各大比赛各种大杀器的 XGBoost、lightgbm还是像随机森林、Adaboost等典型集成学习模型,都是以决策树模型为基础的。传统的经典决策树算法包括ID3算法、C4.5算法以及GBDT的基分类器CART算法.

本篇讲解较为详细,特来分享一下:

ID3算法理论

     这里的关键在于如何选择最优特征对数据集进行划分。答案就是信息增益、信息增益比和Gini指数。因为本篇针对的是ID3算法,所以仅对信息增益进行详细的表述。

     在讲信息增益之前,这里我们必须先介绍下熵的概念。在信息论里面,熵是一种表示随机变量不确定性的度量方式。若离散随机变量X的概率分布为:

图片

     则随机变量X的熵定义为:

图片

     同理,对于连续型随机变量Y,其熵可定义为:

图片

     当给定随机变量X的条件下随机变量Y的熵可定义为条件熵H(Y|X):

图片

     所谓信息增益就是数据在得到特征X的信息时使得类Y的信息不确定性减少的程度。假设数据集D的信息熵为H(D),给定特征A之后的条件熵为H(D|A),则特征A对于数据集的信息增益g(D,A)可表示为:

g(D,A) = H(D) - H(D|A)

     信息增益越大,则该特征对数据集确定性贡献越大,表示该特征对数据有较强的分类能力。信息增益的计算示例如下:
1).计算目标特征的信息熵。

图片

2).计算加入某个特征之后的条件熵。

图片

3).计算信息增益。

图片

     以上就是ID3算法的核心理论部分

对文章具体内容感兴趣的话,点击下面链接进行阅读:

数学推导+纯Python实现机器学习算法4:决策树之ID3算法

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ff_峰峰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值