算法知识点——(3)监督学习——决策树

决策树是一种基于特征选择的分类模型,通过信息增益、信息增益比和基尼指数等启发函数构建。本文详细介绍了ID3、C4.5和CART算法,包括它们的优缺点和处理连续性数据的方法。同时,讨论了决策树的剪枝策略,如预剪枝和后剪枝,以及在实际应用中的常见问题和解决方案。
摘要由CSDN通过智能技术生成

 

目录

一、决策树概念

二、决策树启发函数

1. ID3——最大信息增益

2. C4.5——最大信息增益比

3. CART——最小基尼系数

4. 启发函数区别

三、决策树剪枝策略

1. 预剪枝

2. 后剪枝

四、常见问题

1. C4.5 如何处理连续型数值

2.信息增益率的优缺点

3. C4.5对ID3做了哪些改进

4. CART 与C4.5区别

5. 简述分类树与回归树

6.决策树一定是二叉树么?二叉树与多分支决策树相比各有什么特点

7. 决策树需要归一化么

8. CART对离散分布、且取值数目>=3的特征的处理

9. 决策树对线性数据的处理

10. 决策树的优缺点


一、决策树概念

决策树是一种自上而下, 对样本数据进行树形分类的过程, 由结点和有向边组成。 结点分为内部结点和叶结点, 其中每个内部结点表示一个特征或属性, 叶结点表示类别。 从顶部根结点开始, 所有样本聚在一起。 经过根结点的划分, 样本被分到不同的子结点中。 再根据子结点的特征进一步划分, 直至所有样本都被归到某一个类别(即叶结点) 中。一般而言, 决策树的生成包含了特征选择树的构造树的剪枝三个过程,

二、决策树启发函数

从若干不同的决策树中选取最优的决策树是一个NP完全问题, 在实际中我们通常会采用启发式学习的方法去构建一棵满足启发式条件的决策树。

1. ID3——最大信息增益

对于样本集合D, 类别数为K, 数据集D的经验熵表示为

其中Ck是样本集合D中属于第k类的样本子集, |Ck|表示第K类样本个数个数, |D|表示样本总数。

某个特征A对于数据集D的经验条件熵H(D|A)

其中, Di表示D中特征A取第i个值的样本子集, Dik表示Di中属于第k类的样本子集。

于是信息增益g(D,A)可以表示为二者之差, 

计算实例:

样本属性集

则,每个特征信息增益为:

2. C4.5——最大信息增益比

特征A对于数据集D的信息增益比定义为

其中\small H_A(D)称为数据集D关于A的取值熵

计算实例:

根据增益比公式得知:

3. CART——最小基尼系数

Gini描述的是数据的纯度, 与信息熵含义类似。

CART在每一次迭代中选择基尼指数最小的特征及其对应的切分点进行分类。但与ID3、 C4.5不同的是, CART是一颗二叉树, 采用二元切割法, 每一步将数据按特征A的取值切成两份, 分别进入左右子树。 特征A的Gini指数定义为

计算实例:

年龄 不见 属性样本数   写代码 不见 该属性样本数
1 0 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值