数据挖掘：决策树

最新推荐文章于 2024-09-15 15:29:29 发布

人工智能_SYBH

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量117

点赞数

分类专栏： 2024年机器学习&深度学习千例文章标签：数据挖掘决策树人工智能机器学习 python 算法

本文链接：https://blog.csdn.net/m0_68036862/article/details/133787949

版权

2024年机器学习&深度学习千例专栏收录该内容

该专栏为热销专栏榜第25名

824 篇文章 844 订阅 ¥99.90 ¥299.90

订阅专栏

这篇博客详细介绍了决策树的算法原理，包括分类树和回归树的区别，以及其在数据挖掘中的应用。博主手动实现了决策树分类器并进行了可视化，通过数据向量化、属性与标签划分，构建并验证了模型的准确性。此外，还对比了使用sklearn库的决策树分类器。

摘要由CSDN通过智能技术生成

1. 算法原理

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法，它的概念非常简单。决策树算法之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。直观看上去，决策树分类器就像判断模块和终止块组成的流程图，终止块表示分类结果（也就是树的叶子）。判断模块表示对一个特征取值的判断（该特征有几个值，判断模块就有几个分支）。

如果不考虑效率等，那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上，样本所有特征中有一些特征在分类时起到决定性作用，决策树的构造过程就是找到这些具有决定性作用的特征，根据其决定性程度来构造一个倒立的树–-决定性作用最大的那个特征作为根节点，然后递归找到各分支下子数据集中次大的决定性特征，直至子数据集中所有数据都属于同一类。所以，构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。