Spark基本操作 RDD map filter aggregate

文件读取,转化成RDD,输出

from pyspark.sql import SparkSession
"""
Spark RDD
每个spark都由一个驱动器程序(driver program)来发起集群上的各种并行操作
SparkContext对象代表对计算集群的一个连接,简写为sc
"""
spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
# 读取文件
df = sc.textFile("test.txt")
# 过滤操作
df2 = df.filter(lambda x: "export" in x)
df3 = df.filter(lambda x: "alias" in x)
# 输出
print(df2.collect())
print(df3.collect())

RDD常见操作

  • 操作可分为转化(transformation)和行动(action)
    • 转化: 一个RDD生成一个新的RDD
    • 行动: 对RDD计算出一个结果
from pyspark.sql import SparkSession

spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
sc = spark.sparkContext

# 1 转化
# map 映射操作
# nums = sc.parallelize([1,2,3,4])
# squared = nums.map(lambda x: x*x).collect()
# for num in squared:
#     print("%i " %num)
# 输出:
# 1 
# 4 
# 9 
# 16 

# flatmap 输出一个返回值序列的迭代器
# lines = sc.parallelize(["hello sdjfl sdjfkldsj sfjl", "hi"])
# words = lines.flatMap(lambda line: line.split(" "))
# print(words.collect())
# 输出
# ['hello', 'sdjfl', 'sdjfkldsj', 'sfjl', 'hi']



# 2 行动
# reduce 接收的参数个数只能为2,先把sequence中第一个值和第二个值当参数传给function,再把function的返回值和第三个值当参数传给function,然后只返回一个结果。
# rdd = sc.parallelize([1,2,3,4])
# sum = rdd.reduce(lambda x,y: x+y)
# print(sum)
# 输出
# 10


# aggregate
# seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue.
rdd = sc.parallelize([1,2,3,4])
seqOp= (lambda x, y: (x[0]+ y, x[1]+1))
combOp = (lambda x, y: (x[0]+ y[0], x[1]+ y[1]))
res = sc.parallelize([1,2,3,4]).aggregate((0,0), seqOp, combOp)
print(res)
rdd.saveAsTextFile("tmp.txt")
# 输出
# (10, 4)
# 计算过程
# 1.  0+1,  0+1
# 2.  1+2,  1+1
# 3.  3+3,  2+1
# 4.  6+4,  3+1

参考1
参考2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值