Spark面试题(二)

reduceByKey、foldByKey、aggregateByKey、combineByKey区别

算子 初始值 逻辑
reduceByKey 没有初始值 分区内和分区间逻辑相同
foldByKey 有初始值 分区内和分区间逻辑相同
aggregateByKey 有初始值 分区内和分区间逻辑可以不同
combineByKey 初始值可以变换结构 分区内和分区间逻辑可以不同

请列举会引起Shuffle过程的Spark算子,并简述功能

  1. reduceByKey:可以将数据按照相同的Key对Value进行聚合
  2. groupByKey:可以将数据按照相同的key对Value进行分组
  3. aggregateByKey :可以将数据根据不同的规则进行分区内计算和分区间计算,有初始值。
  4. foldByKey:当分区内规则和分区间规则相同时,aggregateByKey可以简化为foldByKey。
  5. combineByKey:有初始值的聚集函数,允许返回值类型与输入类型不一致。
  6. sortByKey:在一个(K,V&
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值