PySpark简单使用(二)——map方法（算子）使用

最新推荐文章于 2023-07-30 21:53:18 发布

FuzhouJiang

最新推荐文章于 2023-07-30 21:53:18 发布

阅读量916

点赞数

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_42120843/article/details/131169305

版权

python 专栏收录该内容

26 篇文章 2 订阅

订阅专栏

map使用例子

from pyspark import SparkConf, SparkContext
import os
# 让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据乘以10
# func:(T) -> U  表示传入参数和返回值都要有一个
# def func(data):
#     return data * 10

# map函数就是将 rdd 列表中的每个元素传入func进行调用
#rdd2 = rdd.map(func)
# 链式调用（函数返回要始终相同）
rdd2 = rdd.map(lambda x: x * 10).map(lambda x: x + 3)

print(rdd2.collect())

sc.stop()

输出结果：
[13, 23, 33, 43, 53]

map使用例子2

from pyspark import SparkConf, SparkContext
import os
# 让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize(["i love you", "you love me", "hello world"])

# 需求：将RDD数据里面的每个单词提取出来
rdd2 = rdd.map(lambda x: x.split(""))
print(rdd2.collect())