PySpark简单使用(二)——map方法(算子)使用

map使用例子

from pyspark import SparkConf, SparkContext
import os
# 让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据乘以10
# func:(T) -> U  表示传入参数和返回值都要有一个
# def func(data):
#     return data * 10

# map函数就是将 rdd 列表中的每个元素传入func进行调用
#rdd2 = rdd.map(func)
# 链式调用(函数返回要始终相同)
rdd2 = rdd.map(lambda x: x * 10).map(lambda x: x + 3)

print(rdd2.collect())

sc.stop()

输出结果:
[13, 23, 33, 43, 53]

map使用例子2

from pyspark import SparkConf, SparkContext
import os
# 让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize(["i love you", "you love me", "hello world"])

# 需求:将RDD数据里面的每个单词提取出来
rdd2 = rdd.map(lambda x: x.split(""))
print(rdd2.collect())

输出结果:
[[‘i’, ‘love’, ‘you’], [‘you’, ‘love’, ‘me’], [‘hello’, ‘world’]]

发现使用map和我们预期不一致,我们希望就只有一层list,那么我们可以调用flagMap解决这个问题,即将 rdd.map(lambda x: x.split(“”)) 改变为 rdd.flatMap(lambda x: x.split(“”)),输出的结果为:

[‘i’, ‘love’, ‘you’, ‘you’, ‘love’, ‘me’, ‘hello’, ‘world’]

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值