RDD计算数据flatMap方法

是两三杯可乐

于 2024-06-02 21:06:36 发布

阅读量92

点赞数 3

分类专栏： Python基础文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_46120670/article/details/139397275

版权

Python基础专栏收录该内容

37 篇文章 0 订阅

订阅专栏

flatMap算子：
对rdd执行map操作一样，但是在最后会进行解除嵌套的操作

使用map进行读取：

from  pyspark import SparkConf , SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D://python3.8/python.exe" #pyspark在python的解释器在哪

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc =  SparkContext(conf = conf)

#准备一个RDD
rdd = sc.parallelize(["wwww jjj hhh 555","sjjs mhhhx 7844" , "rrrr lll 55 66 1 "])

#需求，将RDD数据里面的单词一个个取出来
rdd2 = rdd.map(lambda x: x.split(" "))

print(rdd2.collect())

运行结果：
在这里插入图片描述
使用flatmap读取：

rdd2 = rdd.flatMap(lambda x: x.split(" "))

在这里插入图片描述

是两三杯可乐

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
RDD计算数据flatMap方法

对rdd执行map操作一样，但是在最后会进行解除嵌套的操作。
复制链接

扫一扫

专栏目录