决策树介绍

最新推荐文章于 2024-06-19 21:24:08 发布

cwfly93

最新推荐文章于 2024-06-19 21:24:08 发布

阅读量5.7k

点赞数 4

分类专栏：机器学习、深度学习 Python 文章标签：机器学习决策树

本文链接：https://blog.csdn.net/u014258807/article/details/80672928

版权

决策树是一种基于特征的分类模型，通过选择最优特征进行数据划分。本文介绍了决策树的基本概念、特征选择（信息增益、信息增益比、基尼指数）以及决策树生成（ID3、C4.5算法）。此外，还讨论了防止过拟合的剪枝技术，包括预剪枝和后剪枝策略。

摘要由CSDN通过智能技术生成

决策树是一种基本的分类与回归方法（此处以分类为例），它可以认为是定义在特征空间与类空间的条件概率分布，决策树思想，实际上就是寻找最纯净的划分方法。决策树模型不同于线性模型，线性模型是所有特征赋予不同的权值相加得到结果，而决策树则是单个特征进行处理，每一步寻找一个最优特征进行划分。决策树与逻辑回归的不同之处也在于此，逻辑回归是根据所有特征求出概率，然后与某一阈值进行比较从而分类，而决策树每一步是通过最优特征进行划分，直到叶节点。决策树的学习过程主要包括3个步骤：特征选择、决策树的生成和决策树的剪枝。常用的算法有ID3算法、C4.5算法以及CART算法。后面会一一介绍这些算法。

1.决策树模型

决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成，结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

下图是一个简单的决策树，用来判断西瓜的好坏。这里只列举了简单的两个属性：色泽={灰白，浅绿}，敲声={浊响，清脆}。其中，圆为内部结点，矩形为叶结点。整个判断流程是：首先看色泽，如果是灰白，则为坏瓜，如果是浅绿，则继续判断敲声，如果是浊响，则是好瓜，清脆则为坏瓜。

决策树的根节点到叶节点的每一条路径构建一条规则；路径内部节点的特征对应着规则的条件，而叶节点的类对应着规则的结论。决策树学习算法通常是递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子集数据有一个最好的分类结果。这一过程对应着特征空间的划分，也对应着决策树的构建。开始，构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个当前条件下的最好分类。如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到对应的叶节点中去；如果还有子集不能被正确分类，那么就对这些子集继续选择最优特征，继续对其进行分割，构建相应的节点。如此递归下去，直到所有训练数据子集都被基本正确分类或者没有合适的特征为止。最后每个子集都有相应的类，这就生成了一颗决策树。

以上方法生成的决策树很有可能发生过拟合，所以我们需要对决策树进行剪枝处理，使决策树变的简单，从而具有更好的泛化能力。

2.特征选择

特征选择就是决定用哪个特征来划分特征空间。前面说过，决策树的思想实际上就是选择最纯净的划分方法，即选择最优的特征来得到最好的划分。那么，如何进行特征选择呢？特征选择的准则通常是信息增

最低0.47元/天解锁文章

cwfly93

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
决策树介绍

决策树是一种基本的分类与回归方法（此处以分类为例），它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间的条件概率分布。决策树的学习过程主要包括3个步骤：特征选择、决策树的生成和决策树的剪枝。常用的算法有ID3算法、C4.5算法以及CART算法。后面会一一介绍这些算法。1.决策树模型决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由...
复制链接

扫一扫

专栏目录