第4.1章：决策树（decision tree）_特征选择&决策树生成

最新推荐文章于 2023-08-29 08:08:48 发布

popo-shuyaosong

最新推荐文章于 2023-08-29 08:08:48 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习文章标签：特征选择信息增益信息增益率 gini系数决策树生成

本文链接：https://blog.csdn.net/weixin_41577426/article/details/100535212

版权

本文详细介绍了决策树的学习过程，包括决策树的概述、特征选择的熵值、信息增益、信息增益率和基尼系数，以及决策树的生成步骤。决策树是一种非线性模型，通过信息增益或基尼系数选择最佳特征进行划分，以构造出最优决策树。在生成过程中，如ID3算法，会选择信息增益最高的特征作为节点。同时，文章还提到了决策树剪枝的重要性，以防止过拟合。

摘要由CSDN通过智能技术生成

来源

Lecture_04

本章视频

11_决策树算法、12_案例实战：使用sklearn构造决策树模型、13_集成算法与随机森林、14_案例实战：泰坦尼克获救预测

决策树概述

决策树属于非线性模型，可以用于分类，也可用于回归（CART才能回归）。它是一种树形结构，可以认为是if-then规则的集合，是以实例为基础的归纳学习。

基本思想是自顶向下，以信息增益（或信息增益比，基尼系数等）为度量构建一颗度量标准下降最快的树，每个内部节点代表对一个特征的测试（判断），直到叶子节点处只剩下同一类别的样本（理想状态）。
决策树组成：重要程度高的做根节点，或者说根节点的分类效果会比较好。非叶子节点就是决策的中间过程，每一个节点相当于对数据集进行了一次划分，当特征越多即节点越多的时候，数据就会被划分的越细。每个节点包含的样本集合根据特征测试的结果，被划分到子节点中，根节点则包含了样本的全集。叶子节点则是最终的决策结果。从根节点到每个叶子节点的路径对应了一个判定测试序列。所以决策树构成后，只需要将样本从根节点开始一层一层的进行判断，到达叶子结点就是决策的结果。按照决策过程中特征从上到下的顺序，我们也可以将特征的重要程度进行排序，这也就解释了为什么树模型有feature_importance这个参数了。
难点：如何进行特征的选择、切分（选哪个作为根节点，其次的节点又选择什么特征，特征该如何划分数据），也就是如何构造好一颗决策树，以及对决策树的修剪
三个重要的步骤：特征选择，决策树的生成以及决策树的剪枝。
(1) 特征选择：常用的特征选择有信息增益，信息增益比，基尼（GINI）系数等。
(2) 生成过程：通过计算信息增益或其它指标，选择最佳特征。从根结点开始，递归地产生决策树，不断的选取局部最优的特征，将训练集分割成能够基本正确分类的子集。
(3) 剪枝过程：常用的剪枝策略主要有预剪枝与后剪枝。
对于连续值，可以进行离散化。即先对数据集进行排序，然后划分为两部分，一部分为yes一部分为no。至于在什么位置划分，可以遍历所有切分点根据信息增益率选择最好的切分点。

参考资料：CART算法、决策树及决策树生成与剪枝

一、特征选择

引入熵值

定义：衡量物体内部的混乱程度（随机变量的不确定性），熵值越高即越混乱（类别越不确定）。比如：义乌小商品市场混乱程度就高（熵值比较大），想要从中取一支铅笔的概率就比较低。如果去文具店买的话，就会容易许多。
一个例子： $A 集合 [1, 1, 1, 1, 1, 1, 1, 1, 2, 2] 、 B 集合 [1, 1, 1, 1, 1, 2, 2, 2, 2, 2]$
我么希望经过一次决策后，得到的是A集合，他的熵值低（不确定性更低）
熵值计算公式　　注：熵值公式的推导 $H(D)=-\sum_{k=1}^{K} P_{k} \cdot \log _{2} (P_{k})$ D表示当前的数据集合（要计算的数据集）；K表示数据集中类别的个数
$\bm{P_{k}}$ 表示整个数据集中取到第 $k$ 个类别的概率值（数据集有5个yes2个no，则分别为5/7和2/7），取值范围为[0,1]， $\bm{\log _{2} (P_{k})}$ 取值范围则是负无穷到0。由于 $\bm{\log _{2} (P_{k})}$ 取值是负数，所以加上负号使得 $\bm{H(D)}$ 为正。
熵值的理解：可以将随机变量的不确定性，理解为“标签的纯度”，熵值低（纯度高）意味着在数据集里我们要分类的某一种类型占比很高。
从计算公式可以得出：当数据集的类别越多时，我们得到的熵值将越大，即“纯度低”；如果概率值趋于０或者１，则 $P_{k} \cdot \log _{2} (P_{k})$ 的值趋于0，即“纯度低”。
举两个极端的例子（以二分类为例）：（1）如果分类结果中A和B各占50%，那么意味着分类结果很失败，这无异于随机地乱猜，完全没起到分类效果， $=-\left(\frac{1}{2} \log _{2} \frac{1}{2}+\frac{1}{2} \log _{2} \frac{1}{2}\right) =1$

最低0.47元/天解锁文章

popo-shuyaosong

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
第4.1章：决策树（decision tree）_特征选择&决策树生成

第4章：决策树决策树概述决策树概述决策树属于非线性模型，可以用于分类，也可用于回归。它是一种树形结构，可以认为是if-then规则的集合，是以实例为基础的归纳学习。基本思想是自顶向下，以信息增益（或信息增益比，基尼系数等）为度量构建一颗度量标准下降最快的树，每个内部节点代表对一个属性的测试（判断），直到叶子节点处只剩下同一类别的样本。决策树组成：重要程度高的做根节点，或者说根节点的效果会...
复制链接

扫一扫

专栏目录