决策树分类

最新推荐文章于 2022-10-21 13:40:25 发布

华仔宝宝

最新推荐文章于 2022-10-21 13:40:25 发布

阅读量204

点赞数

分类专栏：数据分析算法文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hua_chang/article/details/105096585

版权

数据分析算法专栏收录该内容

17 篇文章 0 订阅

订阅专栏

目录

二、基本思想

三、ID3算法实现

决策树基本流程：

一信息增益

三基尼系数

一、简介

决策树分类算法（decision tree）通过树状结构对具有某特征属性的样本进行分类。其典型算法包括ID3算法、C4.5算法、C5.0算法、CART算法等。每一个决策树包括根节点（root node），内部节点（internal node）以及叶子节点（leaf node）。

根节点：表示第一个特征属性，只有出边没有入边，通常用矩形框表示。

内部节点：表示特征属性，有一条入边至少两条出边，通常用圆圈表示。

叶子节点：表示类别，只有一条入边没有出边，通常用三角表示。

决策树算法主要用于分类，也可用于回归，当决策树的输出变量是分类变量时，是分类树；当决策树输出变量是连续变量时，是回归树。虽然回归树的因变量是连续的，但叶节点数是有穷的，因此输出值也是这个叶节点上观测值的平均。

二、基本思想

决策树算法基本思想可以归纳如下：

第一步，对特征空间按照特征属性进行划分；

第二步，对分类后的子集递归第一步。

分类过程看起来很简单，但是要想得到【完全纯净】的子集，也就是每一个子集中的样本都属于同一个分类，还需要一个评价指标对分类效果好坏进行评估——熵。

熵，是系统一种无组织、无序的状态，广泛应用于信息论中。熵值越大，表明数据的纯度越低。当熵等于0，表明样本数据都是同一个类别。其计算公式如下：

其中，P(Xi)表示概率，b此处取值为2。熵的单位为比特bite。

信息增益（information gain）：代表的是一次划分对数据纯度的提升效果，也就是划分以后，熵减少越多，说明增益越大，那么这次划分也就越有价值，增益的计算公式如下：

其中D表示样本集，假定属性a有v个可能的取值（离散或连续）。进行最有划分属性时，比如先找到了属性a，对a进行评价，接下来对其他属性重复a的过程，分别得到一个评分，选择评分最高的那个，即信息增益最大的作为最有划分属性。简言之，信息增益就是分割属性前的熵值与分割后的熵值进行差异比较。

需要注意的是，计算子集的熵之和需要乘上各个子集的权重，权重的计算方法是子集的规模占分割前父集的比重。如，分割前的熵为e，分割子集为a和b，大小分别为m和n，熵分别为e1和e2，则信息增益为e-e1*m/(m+n)-e2*n/(m+n)。

三、ID3算法实现

分类的本质是对特征空间的划分。根据决策树的基本思想，其算法实现主要有以下三步：

1.选择特征属性，样本分割。

2.计算信息增益，选取最大增益作为决策树的子节点。

3.递归执行上两步，直至分类完成。

决策树基本流程：

几种分列准则

一信息增益

二增益率

三基尼系数

停止条件：

1.如果节点中所有观测属于一类。

2.如果该节点中所有观测的属性取值一致。

3.如果树的深度达到设定的阈值。

4.如果该节点所含观测值小于设定的父节点应含观测数的阈值。

5.如果该节点的子节点所含观测数将小于设定的阈值。

6.如果没有属性能满足设定的分裂准则的阈值。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。