- filter算子:
- 格式: filter(fn)
- 说明: 过滤算子, 可以根据函数中指定的过滤条件, 对数据进行过滤操作, 条件返回True表示保留, 返回False 表示过滤掉
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 请将 <=3的数据过滤掉
rdd.filter(lambda num: num > 3).collect()
结果:
[4, 5, 6, 7, 8, 9, 10]
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 请将 <=3的数据过滤掉
rdd.filter(lambda num: num > 3).collect()
结果:
[4, 5, 6, 7, 8, 9, 10]