pyspark中flatMapValues的用法

条件反射104

于 2021-05-24 17:42:13 发布

阅读量713

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_40317204/article/details/117228426

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了如何在PySpark中使用flatMapValues函数对数据进行扁平化处理，通过sc.parallelize创建的分布式数据集实例展示了该操作。通过函数应用到每个值并合并结果，实现了('A', (1, 4, 9)) 和 ('B', (16, 25)) 的输出。

摘要由CSDN通过智能技术生成

# flatMapValues
x = sc.parallelize([('A',(1,2,3)),('B',(4,5))])
y = x.flatMapValues(lambda x: [i**2 for i in x]) # function is applied to entire value, then result is flattened
print(x.collect())
print(y.collect())
 
[('A', (1, 2, 3)), ('B', (4, 5))]
[('A', 1), ('A', 4), ('A', 9), ('B', 16), ('B', 25)]