机器学习之决策树

曼城周杰伦

已于 2023-05-16 14:56:25 修改

阅读量499

点赞数 1

分类专栏：学堂在线文章标签：决策树机器学习 python 人工智能

于 2022-07-09 21:30:14 首次发布

本文链接：https://blog.csdn.net/victor_manches/article/details/125696795

版权

学堂在线专栏收录该内容

29 篇文章 11 订阅

订阅专栏

文章目录

一、决策树是什么？
二、核心算法
- 2.1 主要过程
- - 2.1.1如何挑选当前分类的属性

课程链接: 学堂在线-张敏老师机器学习算法训练营

一、决策树是什么？

针对于解决离散，无序的非数值特征的分类问题

树的结构如下图，主要由几个特征组成：

圆框称之为非叶节点(属性eg:outlook,humidity)
箭头称之为特征(sunny,rain,overcast)
方框称之为叶节点(标签，也有可能存在多种标签共存)

其中某树的构造的一种实现办法为:
{属性A:{特征1:{下一层嵌套属性B字典或者标签},特征2:{下一层嵌套字典或者标签}}}

二、核心算法

2.1 主要过程

树的结构一般都是由递归算法实现的，主要的算法由以下五部分组成:

比较属性里最好的属性，作为分类属性
属性A作为节点
对A属性里的每一个值都进行再分类
递归步骤123
直到找到对应的标签

对于上列的步骤，难点在于步骤1和步骤5，那么下面我就对1和5进行解释

2.1.1如何挑选当前分类的属性

我们需要选择分类的节点需要有两个特征:

表达的信息多(尽可能的在下次分类时更"纯")
节点尽可能的少

因此我们在这里引入了混杂度的概念:用于评价信息的不确定性，主要由三个指标评价:

1 信息熵(entropy)，这个概念比较重要，后期的大部分分类问题的loss函数利用的都是交叉熵的概念，这个后续会详解，在这记住熵的基本公式就可以了:
在这里插入图片描述这里我们可以看出P越大，熵越小，说明得到的信息就越少。即概率越小的事件带来的信息量越多，而正态分布具有最大的熵值，另外我们定义p = 0 的时候对应的熵也为0

2 Gini混杂度&错分类混杂度，这两个在n均分类的时候值想等，所以就只给出了gini的计算式子，
最大的gini混杂度在n分类问题均分时最大 = 最大错分类的混杂度:
在这里插入图片描述

代码如下（示例）：

通过上面混杂度的定义，我们就可以算出各个属性的对应的混杂度，之后我们只要找到下一个节点中能让信息增益最大的分类属性，就可以作为其分类的属性了。
代码里计算的是:原始的S - 经过属性A分类后的熵Sa
但是原始的熵对于每一个属性都是定值，所以只要属性分类后的熵值最小值就是下一个分类的属性了。

### 2.1.2何时截止分裂
1. 当剩下的标签分无可分的时候，即所有的标签都是一类
2. 剩下的数据中拥有完全相同的特征，但标签却不全相同--- 这个时候应该考虑bias 和 是否漏了某些feature未考虑
3. 剩下的属性信息增益都是0 --- 随机选一种

## 2.2 过拟合问题
**过拟合:** 指的是在training set表现的很好loss较低，但是在testing set上表现的很差的一类现象。这个问题不仅仅出现在决策树的模型里，在所有的机器/深度学习的模型里都是top类的问题。(ps:可能引起的原因是由于training set 的数据没有泛化性所以一般方法是增大training数据，增加L1/L2正则项，减少model的复杂度等方法)
但是在决策树中，过拟合的问题更为棘手，由于树的结构，所以我们可以在training的过程中，准确率就达到100%，类似于查表，但是实际上这种查表的并不能泛化到testing里去，因为我们需要对决策树采取一些剪枝的办法。

### 2.2.1 预剪枝
**预剪枝:** 指的是在数据分裂在统计意义上并不显著的时候，树形成的时候就停止生长。一般有2种办法:
1. 设定最小样本数，当training的样本数小于一个特定的比例(总样本5%)
2. 对于信息增益值设定一个阈值，当增益值小于这个阈值就停止分裂
以上这两个值都属于超参数

### 2.2.2 后剪枝
**预剪枝:** 在树已经形成后，通过**验证集alidation set**进行剪枝。一般有2种办法:
1.  错误率降低剪枝: 自下而上的剪去可以在验证集上可以提高准确率的节点。
2. 规则后剪枝:首先将树转换成条件结构的集合,一条分支就是一个规则eg:
if (outlook = sunny ) ^ (humidity = high) ^ (windy = True ) then lable = no
转换成规则
(outlook = sunny )  (humidity = high)  (windy = True ) 
对然后依次对这些规则排序(根据准确率)，找到在验证集中可以提升该规则准确率的规则前件进行剪枝，但是剪完之后在某个路径下就可能无法恢复成一颗树了。


剪掉的节点标签可以赋值为:
1出现最多类的标签 
2根据标签出现的概率赋值，然后在测试时根据概率去选择标签或者多个标签 
3如果是一个数值标签，可以给加权平均值
**PS：后剪枝我们可以看出这个计算量是条件的指数集，所以用的时候可以先从路径长的条件规则或者错误率较高的条件开始剪。**


**总结:** 对于后剪枝的两种办法而言，错误降低剪枝只能从下慢慢的往上贪心的剪枝，而规则后剪枝可以在树的任何位置进行剪，但是最后可能不能恢复成一棵树。整体来说，预剪枝更快，而后剪枝准确率更高。

# 三. 数据预处理
## 3.1 连续属性处理
我们可以利用qcut 或者cut函数将连续值等分成n份。

## 3.2 未知属性处理
1. 取当前属性里出现最多的那个属性赋值
2. 取对应标签里出现最多的那个属性赋值
3. 取概率赋值
## 3.3 具有过多取值的属性
如果属性有更多的取值，决策树会优先选择作为节点，从而带来误差,eg:
一年365天被分成365个属性。
因此我们引入信息增益比(GainRatio)来替代信息收益:
[熵/信息增益/信息增益比](https://wenku.baidu.com/view/c3771dd2f51fb7360b4c2e3f5727a5e9856a2786.html)

## 3.4 具有代价的属性
有的时候属性的收集不容易，因此我们引入代价表示不同的属性收集代价的重要性计算信息增,简单表达为:(gain(s,a) + 1) / cost(a)

# 4 总结
例如：以上就是今天要讲的内容，本文仅仅简单介绍了决策树的简单应用，算法，优化，数据处理以及代码实现过程。其实个人觉得难点还是在于，如何难点在于理解树的结构以及如何选择合适的属性作为分类的节点。其实除了决策树之外，我们还可以通过多个随机的决策树组合进行众数投票选出最后的标签增加model 的稳定性

## 代码实现
基于英雄联盟的胜率的数据，附上代码的实现:

曼城周杰伦

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
3
评论
机器学习之决策树

例如：本人用自己的话解释机器学习里的算法，为了方便之后复习总结，有错误的地方希望大家指出，感谢。针对于解决离散，无序的非数值特征的分类问题树的结构如下图，主要由几个特征组成：其中某一层的树大概由代码实现长如下:{属性A:{特征1:{下一层嵌套属性B字典或者标签},特征2:{下一层嵌套字典或者标签}}}树的结构一般都是由递归算法实现的，主要的算法由以下五部分组成:对于上列的步骤，难点在于步骤1和步骤5，那么下面我就对1和5进行解释我们需要选择分类的节点需要有两个特征:因此我们在这里引入了混杂度的概念:用于评
复制链接

扫一扫