机器学习之决策树算法

最新推荐文章于 2024-01-07 02:08:34 发布

qinqinwawa

最新推荐文章于 2024-01-07 02:08:34 发布

阅读量364

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qinqinwawa/article/details/90236816

版权

决策树是一种有监督的分类算法，分为离散性和连续性两种类型。概念包括熵、信息增益、信息增益比和基尼指数，用于评价特征划分效果。决策树构造涉及特征选择、生成和裁剪，常见的决策树类型如ID3、C4.5和CART，它们在特征选择时分别依据信息增益、信息增益比和基尼指数。剪枝是防止过拟合的重要步骤，包括预剪枝和后剪枝策略。

摘要由CSDN通过智能技术生成

0 介绍

决策树是一个有监督分类与回归算法。 （本文只介绍分类，回归还没搞懂）

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。

决策树的分类：主要取决于目标变量的类型。

离散性决策树：离散性决策树，其目标变量是离散的，如性别：男或女等；
连续性决策树：连续性决策树，其目标变量是连续的，如工资、价格、年龄等；

决策树的变量可以有两种：
1）数字型（Numeric）：变量类型是整数或浮点数，如前面例子中的“年收入”。用“>=”， “>”,“<”或“<=”作为分割条件

（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。
2）名称型（Nominal）：类似编程语言中的枚举类型，变量只能重有限的选项中选取，比如前面例子中的“婚姻情况”，只能是“单身”，“已婚”或“离婚”，使用“=”来分割。

1 概念

1. 熵

物理学上，熵 Entropy 是“混乱” 程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高
信息理论：
1、当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。
2、当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。这是从信息的有序性上进行的描述。

假如事件A的分类划分是 $\left ( A_{1},A_{2}...A_{n}\right )$ ，每部分发生的概率是 $\left ( p_{1} ,p_{2}...p_{n}\right )$ ，那信息熵定义为公式如下：

2. 信息增益

信息增益为以某特征划分数据集前后的熵的差值。使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

（ID3, 信息增益最大作为最优特征）

D：为样本集，Ent(D):整体熵

a:离散型属性， v: 是a属性里可能的取值节点
$D^{v}$ ：第v个分支节点包含了D中所有在属性a上取值为a\^v的样本

缺点：信息增益偏向取值较多的特征（原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分后的熵更低，即不确定性更低，因此信息增益更大）

3. 信息增益比

定义：特征A对训练数据集D的信息增益比 $GainRatio\left (S_{A},A \right )$ 定义为其信息增益 $Gain\left ( S_{A} ,A\right )$ 与训练数据集D的经验熵之比：

其中，

信息增益比本质࿱

最低0.47元/天解锁文章

qinqinwawa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树算法

0 介绍决策树是一个有监督分类与回归算法。（本文只介绍分类，回归还没搞懂）决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。决策树的分类：主要取决于目标变量的类型。离散性决策树：离散性决策树，其目标变量是离散的，如性别：男或女等；连续性决策树：连续性决策树，其目...
复制链接

扫一扫