Some TRICKS about PySpark

最新推荐文章于 2020-09-16 03:12:24 发布

VIP文章吴彦蛆

最新推荐文章于 2020-09-16 03:12:24 发布

阅读量203

点赞数

本文链接：https://blog.csdn.net/tangyaruo/article/details/107907943

版权

1. DataFrame中如果存在某列类型为vector，如何提取vector中的元素

pyspark > 3.0.0

from pyspark.ml.functions import vector_to_array

(df.withColumn("xs", vector_to_array("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## |   word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert|  1.0|  2.0|  3.0|
## |require|  0.0|  2.0|  0.0|
## +-------+-----+-----+-----+

pyspark < 3.0.0
- 将DataFrame转换为RDD，不再赘述
- create an UDF

from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    # Important: asNondeterministic requires Spark 2.3 or later
    # It can be safely remove

最低0.47元/天解锁文章

优惠劵

吴彦蛆

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Some TRICKS about PySpark

1. DataFrame中如果存在某列类型为vector，如何提取vector中的元素pyspark > 3.0.0from pyspark.ml.functions import vector_to_array(df.withColumn("xs", vector_to_array("vector"))) .select(["word"] + [col("xs")[i] for i in range(3)]))## +-------+-----+-----+-----+#.
复制链接

扫一扫