[人工智能]基于Spark机器学习之决策树实现

最新推荐文章于 2024-08-04 21:08:26 发布

图解AI

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量6.9k

点赞数 3

分类专栏：机器学习应用知识笔记文章标签： spark 机器学习人工智能

机器学习应用知识笔记专栏收录该内容

62 篇文章 39 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了决策树的基本理论，包括决策树的定义、学习流程、构造方法和划分选择，如信息熵、基尼系数和信息增益等。此外，还探讨了决策树的优缺点。在实践中，通过实例展示了如何在Spark中应用决策树进行分类和回归任务。

摘要由CSDN通过智能技术生成

决策树

1 决策树理论

1.1 什么是决策树

所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。
树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

1.2 决策树学习流程

决策树学习的主要目的是为了产生一棵泛化能力强的决策树。其基本流程遵循简单而直接的“分而治之”的策略。它的流程实现如下所示：

输入：训练集 D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)};
      属性集 A={a_1,a_2,...,a_d}
过程：函数GenerateTree(D,A)
1: 生成节点node；
2: if D中样本全属于同一类别C then
3:    将node标记为C类叶节点，并返回
4: end if
5: if A为空 OR D中样本在A上取值相同 then
6:    将node标记为叶节点，其类别标记为D中样本数量最多的类，并返回
7: end if
8: 从A中选择最优划分属性 a*&#x