决策树之ID3 ,C4.5 ,CART,理论+实例

本文深入探讨了决策树中的ID3,C4.5和CART算法,详细解释了信息熵、信息增益、信息增益比和基尼系数等概念,并通过实例展示了特征选择的过程。内容包括算法的计算过程和决策树的构建步骤。
摘要由CSDN通过智能技术生成

       将所学的内容整理出并结合实例推演,若有错误,敬请指教。欢迎讨论哈,机器学习爬坑中

目录

不同算法特征选择依据

信息熵

信息增益ID3

信息增益比C4.5

基尼系数CART

配合实例来了解一下以上三种特征选取方式

具体计算过程

信息增益比

基尼系数

算法步骤(参考刘建平) 


不同算法特征选择依据

信息熵

信息熵(entropy)度量信息不确定性的量化问题。在信息论中,熵是表示随机变量不确定性的度量。熵的取值越大,随机变量的不确定性也越大。单位,比特(bit)

https://i-blog.csdnimg.cn/blog_migrate/64d6426f0bbf87df7c9c77c848cb6e51.jpeg

即:

https://i-blog.csdnimg.cn/blog_migrate/3f403c38ad19ed7713fab07531f4bcdc.png

对于样本集合D来说,随机变量X是样本的类别,即,假设样本有k个类别,每个类别的概率是,其中|Ck|表示类别k的样本个数,|D|表示样本总数

 

则对于样本集合D来说熵(经验熵)为:

https://i-blog.csdnimg.cn/blog_migrate/cacdf7f24002de196bca92a20c1ad84c.png

信息增益ID3

熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏

前提:我们在构建最优的决策树的时候总希望能更快速到达纯度更高的集合。

根据公式:

信息增益 =  entroy(前) -  entroy(后)

https://i-blog.csdnimg.cn/blog_migrate/50876d5d59fd5325607490a83e5be9b6.png

对于数据集D,其熵(entroy(前))是一定的,entroy(后)越小说明使用此特征划分得到的子集的不确定性越小(纯度越高),因此根据公式我们选择使得信息增益g(D,A)最大的特征A来划分当前数据集D。

 

信息增益比C4.5

信息增益比 = 惩罚参数 * 信息增益

https://i-blog.csdnimg.cn/blog_migrate/03347f354934481a0dbc3fe5715eea5c.png

它是信息增益和特征熵的比值。其中的HA(D),对于样本集合D,将当前特征A作为随机变量(取值是特征A的各个特征值),求得的经验熵。公式为

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值