决策树建模过程

最新推荐文章于 2023-03-08 16:18:42 发布

北镒

最新推荐文章于 2023-03-08 16:18:42 发布

阅读量3k

点赞数 1

文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46427302/article/details/110789433

版权

决策树建模过程

1、第一阶段----环境准备

在这个阶段中，我们需要准备SparkSession和SparkContext，以及设置日志级别

必要的时候导入SparkSession隐式转化

2、第二阶段----数据准备

在这个阶段中，不需要太多的操作，只需要把待处理的数据路径准备好即可，一般我们会把待处理的数据放入resource目录下

3、第三阶段----读取数据

在这个阶段中，我们需要将数据处理成DataFrame格式，主要的事情是对这份数据进行结构上的优化，比如加上表头，如果是csv格式是数据还需要将其每一行的内容进行切割，识别类型

这里我们一般使用sc进行数据读取然后再将其转化成DF，转DF时常用手段时通过SparkSession的createDataFrame（rdd：RDD[Row]，schema：StructType）方法创建

4、第四阶段----特征工程

在这个阶段中，我们主要需要做的：

a）类别标签索引化（通俗来说就是将字符串类型的类别标签列变成Double类型，以方便后续的使用）

这里用到API：StringIndexer

b) 特征列合并（本质来说是将所有Double类型的特征列，合并为一列Vector类型特征列）

这里用到的API：VectorAssembler

5、第五阶段----算法准备

在这个阶段中，我们需要根据是否有类别标签列采取不同的算法，如果有标签列我们就采用决策树算法，没有就采用聚类算法

这里用到的API：

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
决策树建模过程

决策树建模过程1、第一阶段----环境准备在这个阶段中，我们需要准备SparkSession和SparkContext，以及设置日志级别必要的时候导入SparkSession隐式转化2、第二阶段----数据准备在这个阶段中，不需要太多的操作，只需要把待处理的数据路径准备好即可，一般我们会把待处理的数据放入resource目录下3、第三阶段----读取数据在这个阶段中，我们需要将数据处理成DataFrame格式，主要的事情是对这份数据进行结构上的优化，比如加上表头，如果是csv格式
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。