大数据与人工智能方向基础 ---- 特征选择与决策树的构建

最新推荐文章于 2024-02-24 20:00:00 发布

.小兔不吃奶糖.

最新推荐文章于 2024-02-24 20:00:00 发布

阅读量930

点赞数

文章标签：决策树人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62076854/article/details/122332160

版权

纯节点，不纯节点，节点不纯度的度量方式（熵不纯度，方差不纯度，误差不纯度），信息增益，增益率，基尼指数，决策树算法的历史，ID3决策树算法，C4.5决策树算法，CART分类树算法，CART回归树的构建……

摘要由CSDN通过智能技术生成

目录

一、面向分类问题的决策树特征选择

1、纯节点、不纯节点

2、节点的不纯度（杂度）

1.2.1 熵不纯度

1.2.2 方差不纯度

1.2.3 误差不纯度

3、基于不纯度的节点特征选择规则 ---- 以分类树为例

3.1 信息增益

3.3 基尼指数

二、分类树的构建

1、决策树算法的研究历史

2、ID3决策树算法

2.1 ID3算法基本思想

2.2 算法基本点

2.3 算法说明

2.4 算法步骤

3、C4.5决策树

3.1 C4.5算法简述

3.2 C4.5算法是ID3算法的后继和改进

3.3 C4.5算法步骤

3.4 C4.5算法关于连续数值特征的处理方法 ---- 二分法

3.5 C4.5算法关于特征缺失值的处理方式

4、CART决策树

4.1 CART树的引入

4.2 递归二叉分类树的生成算法

三、回归树的构建

1、基本思想

2、CART树 ---- 最小二乘回归树生成算法

前言

有很多新手刚刚接触大数据与人工智能方向学习，如果不知道怎么着手的，跟我一起慢慢进步叭~

提示：以下是本篇文章正文内容，下面案例可供参考

一、面向分类问题的决策树特征选择

1、纯节点、不纯节点

若到达某节点的训练样本集只含一类样本，则该节点为纯节点，或同质节点；

否则，为不纯节点，或异构节点。

2、节点的不纯度（杂度）

关于决策树节点不纯程度的度量。

节点不纯度的典型度量方式：

前提：

1.2.1 熵不纯度

1.2.2 方差不纯度

1.2.3 误差不纯度

两类别分类，关于同一个数据集的三种不纯度度量与某类概率关系：

3、基于不纯度的节点特征选择规则 ---- 以分类树为例

一般而言，随着节点划分的不断进行，希望决策树分支节点所含样本尽量来自相同类别，即：节点的纯度不断增加。

3.1 信息增益

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第 k 类样本所占的比例为pk，则D的信息熵定义为：

Ent(D)的值越小，D的纯度越高。

假定离散属性a有v个可能的取值{a1,a2,…,av}，若使用a来对样本集D进行划分，则会产生v个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为av的样本，记为Dv，我们可根据上式计算出Dv的信息熵，再考虑到不同的分支节点所包含的样本数不同，给分支节点赋予权重|Dv| / |D|，即样本数越多的分支节点的影响越大，于是可计算出用属性a对样本集D进行划分所获得的信息增益：

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的纯度提升越大，即每次划分分支时选择信息增益最大的那个属性。

3.2 增益率

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的决策树算法不直接使用信息增益，而是使用增益率来选择最后划分属性。增益率定义为：，其中，称为属性a的固有值。

一般来说，属性a的可能取值数目越多（即v越大），则IV(a)的值通常会越大。

需要注意的是，增益率准则对可取值数目较少的属性有所偏好。因此，我们并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3.3 基尼指数

CART决策树使用基尼指数来选择划分属性。数据集D的纯度可用基尼值来度量：

直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，数据集D的纯度越高。

属性a的基尼指数定义为：

我们在侯选属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

二、分类树的构建

1、决策树算法的研究历史

第一个决策树算法：CLS

真正引发决策树研究热潮的算法：ID3，其增量版本还有：ID4,ID5等。

最流行的决策树算法：C4.5，以ID3为基础，可处理连续特征的算法。

通用的决策树算法：CART

最低0.47元/天解锁文章

.小兔不吃奶糖.

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
大数据与人工智能方向基础 ---- 特征选择与决策树的构建

纯节点，不纯节点，节点不纯度的度量方式（熵不纯度，方差不纯度，误差不纯度），信息增益，增益率，基尼指数，决策树算法的历史，ID3决策树算法，C4.5决策树算法，CART分类树算法，CART回归树的构建……
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。