Apache Spark 提供了两种主要类型的算子:Transformation(转换)和Action(动作)。这些算子是Spark的核心功能,用于处理分布式数据集(RDD或DataFrame/Dataset)。
1. Transformation 算子
- Lazy Evaluation(惰性求值) - Transformation算子不会立即执行,而是在遇到Action算子时触发一个完整的计算过程。
map(func): 对RDD中的每个元素应用函数func进行转换。flatMap(func): 类似于map,但是返回的是一个序列,因此结果是一个扁平化的RDD。filter(func): 根据给定的条件函数过滤出满足条件的元素。groupBy(keyFunc, valueFunc): 按照keyFunc的结果对RDD进行分组,并可以对每个分组应用valueFunc进一步转换。join(otherDataset, [joinExprs]): 将两个RDD按指定键进行连接操作。union(otherDataset): 合并两个RDD。distinct(): 返回RDD中所有不重复的元素。
2. Action 算子
- Eager Evaluation(及早求值) - Action算子会触发实际的计算,并将结果返回到驱动程序或者写

最低0.47元/天 解锁文章
392

被折叠的 条评论
为什么被折叠?



