决策树建模过程
1、第一阶段----环境准备
在这个阶段中,我们需要准备SparkSession和SparkContext,以及设置日志级别
必要的时候导入SparkSession隐式转化
2、第二阶段----数据准备
在这个阶段中,不需要太多的操作,只需要把待处理的数据路径准备好即可,一般我们会把待处理的数据放入resource目录下
3、第三阶段----读取数据
在这个阶段中,我们需要将数据处理成DataFrame格式,主要的事情是对这份数据进行结构上的优化,比如加上表头,如果是csv格式是数据还需要将其每一行的内容进行切割,识别类型
这里我们一般使用sc进行数据读取然后再将其转化成DF,转DF时常用手段时通过SparkSession的createDataFrame(rdd:RDD[Row],schema:StructType)方法创建
4、第四阶段----特征工程
在这个阶段中,我们主要需要做的:
a)类别标签索引化(通俗来说就是将字符串类型的类别标签列变成Double类型,以方便后续的使用)
这里用到API:StringIndexer
b) 特征列合并(本质来说是将所有Double类型的特征列,合并为一列Vector类型特征列)
这里用到的API:VectorAssembler
5、第五阶段----算法准备
在这个阶段中,我们需要根据是否有类别标签列采取不同的算法,如果有标签列我们就采用决策树算法,没有就采用聚类算法
这里用到的API: