pyspark.ml.feature.VectorAssembler
vector:向量
assemble:召集,收集,装配
官方解释:ectorAssembler(inputCols=None, outputCol=None, handleInvalid=‘error’)
特征转换器,将多个列合并为一个向量列。
VectorAssembler接受以下输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。
理解:将dataset中一行的inputCols中的特征值组成一个向量插入outputCol所给的列名中
dataset = spark.createDataFrame(
[(0, 18, 1.0, Vectors.sparse(4,[1,3],[122,344]), 1.0,False,True)],
["id", "hour", "mobile", "userFeatures", "clicked",'flag','flag1'])
assembler = VectorAssembler(
inputCols=["hour", "mobile", "userFeatures",'flag','flag1'],
outputCol="features")
assembler.transform(dataset).show(truncate=False)