PySpark将Vector拆分为列

最新推荐文章于 2022-07-30 18:05:42 发布

浅笑古今

最新推荐文章于 2022-07-30 18:05:42 发布

阅读量4.3k

点赞数 1

分类专栏： pyspark

原文链接：https://www.javaroad.cn/questions/44697

版权

pyspark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一种可能的方法是转换为RDD和从RDD转换：

from pyspark.ml.linalg import Vectors

df = sc.parallelize([
    ("assert", Vectors.dense([1, 2, 3])),
    ("require", Vectors.sparse(3, {1: 2}))
]).toDF(["word", "vector"])

def extract(row):
    return (row.word, ) + tuple(row.vector.toArray().tolist())

df.rdd.map(extract).toDF(["word"])  # Vector values will be named _2, _3, ...

## +-------+---+---+---+
## |   word| _2| _3| _4|
## +-------+---+---+---+
## | assert|1.0|2.0|3.0|
## |require|0.0|2.0|0.0|
## +-------+---+---+---+

另一种解决方案是创建UDF：

from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    return udf(to_array_, ArrayType(DoubleType()))(col)

(df
    .withColumn("xs", to_array(col("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## |   word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert|  1.0|  2.0|  3.0|
## |require|  0.0|  2.0|  0.0|
## +-------+-----+-----+-----+

摘自:https://www.javaroad.cn/questions/44697

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浅笑古今

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PySpark将Vector拆分为列

一种可能的方法是转换为RDD和从RDD转换：from pyspark.ml.linalg import Vectorsdf = sc.parallelize([ ("assert", Vectors.dense([1, 2, 3])), ("require", Vectors.sparse(3, {1: 2}))]).toDF(["word", "vector"])def extract(row): return (row.word, ) + tuple(row.v.
复制链接

扫一扫