- collect() 算子
- 格式: collect()
- 说明: 收集各个分区的数据, 将数据汇总到一个大的列表返回
- reduce() 算子
- 格式: reduce(fn)
- 说明: 根据传入的函数, 对数据进行聚合操作
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 将所有的数字累加在一起
rdd.reduce(lambda agg,curr: agg + curr)
结果: 55
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 将所有的数字累加在一起
rdd.reduce(lambda agg,curr: agg + curr)
结果: 55