【机器学习】——逻辑模型：树模型（决策树）

最新推荐文章于 2022-06-20 19:54:22 发布

Congee小周

最新推荐文章于 2022-06-20 19:54:22 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签： Gini指数信息熵决策树 ID3 C4.5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mango_ZZY/article/details/107871486

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

树模型并不只局限于分类场合，而是可用于解决绝大多数机器学习问题，包括排序、概率估计、回归及聚类。

基本的决策树生成算法是一个贪心算法，采用自上而下、分而治之的递归方式来构造。

决策树

决策树算法3要素：

特征选择：信息增益，信息增益率，基尼指数（Gini）
决策树生成
决策树剪枝

特征选择

特征选择目的：使用某特征对数据集划分之后，各数据子集的纯度要比划分前的数据集D的纯度高（不确定性要比划分前数据集D的不确定性低。）

常见的决策树算法有以下四种：CLS、ID3（信息增益）、C4.5（信息增益率）、CART（基尼指数）

在介绍各种决策树算法之前，先介绍一下熵的概念：

熵：度量随机变量的不确定性。（纯度）

对于样本集合D来说，C是样本的类别，即，假设样本有k个类别，每个类别的概率是，其中|Ck|表示类别k的样本个数，|D|表示样本总数则对于样本集合D来说熵（经验熵）为：

CLS：

CLS算法，是最早期的决策树算法，它有很多缺点，这里就不介绍了，后面3种算法是依据CLS改进的。

ID3：

ID3算法的特征选择需要用信息增益，在熵的定义中可知，熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

划分前样本集合D的熵是一定的，X(前)，使用某个特征A划分数据集D，计算划分后的数据子集的熵 X(后)

信息增益 = X(前) - X(后)

做法：计算使用所有特征划分数据集D，得到多个特征划分数据集D的信息增益，从这些信息增益中选择最大的，因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。

缺点：信息增益偏向取值较多的特征

原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低，由于划分前的熵是一定的，因此信息增益更大，因此信息增益比较偏向取值较多的特征。

C4.5（改进的ID3）：

注意：其中的HA(D)，对于样本集合D，将当前特征A作为随机变量（取值是特征A的各个特征值），求得的经验熵。

（之前是把集合类别作为随机变量，现在把某个特征作为随机变量，按照此特征的特征取值对集合D进行划分，计算熵HA(D)）

信息增益比本质： 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中（之前所说数据集的熵是依据类别进行划分的）

缺点：信息增益比偏向取值较少的特征

原因： 当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。

使用信息增益比：基于以上缺点，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

CART：

定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

注意： Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

即 基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率。

基于特征A划分样本集合D之后的基尼指数：

需要说明的是CART是个二叉树，也就是当使用某个特征划分样本集合只有两个集合：1. 等于给定的特征值的样本集合D1 ， 2 不等于给定的特征值的样本集合D2

实际上是对拥有多个取值的特征的二值处理。

举个例子：

假设现在有特征 “学历”，此特征有三个特征取值： “本科”，“硕士”， “博士”，

当使用“学历”这个特征对样本集合D进行划分时，划分值分别有三个，因而有三种划分的可能集合，划分后的子集如下：

1. 划分点： “本科”，划分后的子集合： {本科}，{硕士，博士}
2. 划分点： “硕士”，划分后的子集合： {硕士}，{本科，博士}
3. 划分点： “硕士”，划分后的子集合： {博士}，{本科，硕士}

对于上述的每一种划分，都可以计算出基于 划分特征= 某个特征值 将样本集合D划分为两个子集的纯度：

因而对于一个具有多个取值（超过2个）的特征，需要计算以每一个取值作为划分点，对样本D划分之后子集的纯度Gini(D,Ai)，(其中Ai 表示特征A的可能取值)

然后从所有的可能划分的Gini(D,Ai)中找出Gini指数最小的划分，这个划分的划分点，便是使用特征A对样本集合D进行划分的最佳划分点。

参考：https://www.cnblogs.com/muzixi/p/6566803.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】——逻辑模型：树模型（决策树）

一、决策树树模型并不只局限于分类场合，而是可用于解决绝大多数机器学习问题，包括排序、概率估计、回归及聚类。参考：https://www.cnblogs.com/muzixi/p/6566803.html
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。