最近工作中用到pyspark, 在家自学整理了笔记
觉得有用的话,点赞支持一下谢谢~
数据准备
spark建模中需要的数据需要是numeric类型
(1)普通的类型转换
# convert to numeric type
data.withColumn("oldCol",data.oldCol.cast("integer"))
(2)类别变量处理 - onehot encoding
# create StringIndexer
A_indexer = StringIndexer(inputCol = "A", outputCol = "A_index")
A_encoder = OneHotEncoder(inputCol = "A_index", outputCol = "A_fact")
(3)将所有的列assemble
VectorAssembler(inputCols = ["a