大数据之 spark 算子

Apache Spark 提供了两种主要类型的算子:Transformation(转换)和Action(动作)。这些算子是Spark的核心功能,用于处理分布式数据集(RDD或DataFrame/Dataset)。

1. Transformation 算子

  • Lazy Evaluation(惰性求值) - Transformation算子不会立即执行,而是在遇到Action算子时触发一个完整的计算过程。
    • map(func): 对RDD中的每个元素应用函数func进行转换。
    • flatMap(func): 类似于map,但是返回的是一个序列,因此结果是一个扁平化的RDD。
    • filter(func): 根据给定的条件函数过滤出满足条件的元素。
    • groupBy(keyFunc, valueFunc): 按照keyFunc的结果对RDD进行分组,并可以对每个分组应用valueFunc进一步转换。
    • join(otherDataset, [joinExprs]): 将两个RDD按指定键进行连接操作。
    • union(otherDataset): 合并两个RDD。
    • distinct(): 返回RDD中所有不重复的元素。

2. Action 算子

  • Eager Evaluation(及早求值) - Action算子会触发实际的计算,并将结果返回到驱动程序或者写
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值