spark-ml函数 VectorAssembler()

最新推荐文章于 2025-03-10 02:51:30 发布

NoOne-csdn

最新推荐文章于 2025-03-10 02:51:30 发布

阅读量4.3k

点赞数 2

分类专栏： pyspark

本文链接：https://blog.csdn.net/weixin_40161254/article/details/89474351

版权

pyspark 专栏收录该内容

63 篇文章

订阅专栏

from pysaprk.ml.feature import VectorAssembler()
A feature transformer that merges multiple columns into a vector column.
合并几个列到一个向量列

from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

from pyspark.sql import SparkSession
import os
os.environ['PYSPARK_PYTHON']='/usr/local/bin/python3'

if __name__ == "__main__":
    spark = SparkSession\
        .builder\
        .appName("VectorAssemblerExample")\
        .getOrCreate()

    dataset = spark.createDataFrame(
        [(0, 18, 1.0, Vectors.dense([0.0, 10.0, 0.5]), 1.0)],
        ["id", "hour", "mobile", "userFeatures", "clicked"])

    assembler = VectorAssembler(
        inputCols=["hour", "mobile", "userFeatures"],
        outputCol="features")

    output = assembler.transform(dataset)
    print("Assembled columns 'hour', 'mobile', 'userFeatures' to vector column 'features'")
    output.select("features", "clicked").show(truncate=False)
    spark.stop()

输出
在这里插入图片描述