决策树建模过程

决策树建模过程

1、第一阶段----环境准备

在这个阶段中,我们需要准备SparkSession和SparkContext,以及设置日志级别

必要的时候导入SparkSession隐式转化

2、第二阶段----数据准备

在这个阶段中,不需要太多的操作,只需要把待处理的数据路径准备好即可,一般我们会把待处理的数据放入resource目录下

3、第三阶段----读取数据

在这个阶段中,我们需要将数据处理成DataFrame格式,主要的事情是对这份数据进行结构上的优化,比如加上表头,如果是csv格式是数据还需要将其每一行的内容进行切割,识别类型

这里我们一般使用sc进行数据读取然后再将其转化成DF,转DF时常用手段时通过SparkSession的createDataFrame(rdd:RDD[Row],schema:StructType)方法创建

4、第四阶段----特征工程

在这个阶段中,我们主要需要做的:

a)类别标签索引化(通俗来说就是将字符串类型的类别标签列变成Double类型,以方便后续的使用)

这里用到API:StringIndexer

b) 特征列合并(本质来说是将所有Double类型的特征列,合并为一列Vector类型特征列)

这里用到的API:VectorAssembler

5、第五阶段----算法准备

在这个阶段中,我们需要根据是否有类别标签列采取不同的算法,如果有标签列我们就采用决策树算法,没有就采用聚类算法

这里用到的API:

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值