Spark算子[10]：foldByKey、fold 源码实例详解

最新推荐文章于 2022-07-13 18:37:32 发布

生命不息丶折腾不止

最新推荐文章于 2022-07-13 18:37:32 发布

阅读量1.7k

点赞数

分类专栏： spark 文章标签： spark fold

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leen0304/article/details/78789564

版权

foldByKey与aggregateByKey，fold与aggregate用法相近，作用相似！
foldByKey是aggregateByKey的简化，fold是aggregate的简化。

foldByKey

源码

  /**
   * 使用关联函数合并每个K的values 并且一个中立的 "zero value" 将被添加到结果中【任意次数】(分区数决定), 
   * 并且不能改变结果：
   * (例如, list集合的Nil, 累加的0值, 乘法的1值等等)
   */

  def foldByKey(
      zeroValue: V,
      partitioner: Partitioner)(func: (V, V) => V): RDD[(K, V)] = self.withScope {

    // 1、序列化 zero value to 为一个字节数组，这样我们就可以在每个Key上得到一个新的克隆体
    val zeroBuffer = SparkEnv.get.serializer.newInstance().serialize(zeroValue)
    val zeroArray = new Array[Byte](zeroBuffer.limit)
    zeroBuffer.get(zeroArray)

    // 2、当反序列化时, 用 lazy val 为每一个task近创建一个序列化器实例
    lazy val cachedSerializer = SparkEnv.get.

最低0.47元/天解锁文章

生命不息丶折腾不止

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark算子[10]：foldByKey、fold 源码实例详解

foldByKey与aggregateByKey，fold与aggregate用法相近，作用相似！ foldByKey是aggregateByKey的简化，fold是aggregate的简化。foldByKey源码 /** * 使用关联函数合并每个K的values 并且一个中立的 "zero value" 将被添加到结果中【任意次数】(分区数决定), * 并且不能改变结果：
复制链接

扫一扫

专栏目录

生命不息丶折腾不止 CSDN认证博客专家 CSDN认证企业博客

码龄8年

80: 原创

39万+: 周排名

172万+: 总排名

43万+: 访问

: 等级

4406: 积分

80: 粉丝

135: 获赞

34: 评论

425: 收藏

私信

关注

热门文章

分类专栏

hadoop 8篇
hive 19篇
java 10篇
shell 4篇
mapreduce 2篇
spark 58篇
sqoop
kafka
linux 1篇
scala 2篇
hbase 1篇
oracle 2篇
ActiveMQ 4篇
编程工具 2篇
数据仓库 1篇
python 2篇

最新评论

Spark性能调优：合理设置并行度
e16_csdn: spark中设置跟多并行度会让网络IO次数增加吗？毕竟一个线程执行完后要进行宽依赖才能释放吧。
Hive学习之抽样（tablesample）
工具编号: 最后一个是获取前10行哦
Spark性能调优：合理设置并行度
qq_59765960: 感想分享
Hive创建表时添加中文注释后乱码问题
心有猛虎丶: 第二种方法修改后初始化报错： Error: COLLATION 'latin1_bin' is not valid for CHARACTER SET 'utf8' (state=42000,code=1253) org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !! Underlying cause: java.io.IOException : Schema script failed, errorcode 2 Use --verbose for detailed stacktrace. *** schemaTool failed ***
Spark算子[20]：saveAsHadoopDataset、saveAsNewAPIHadoopDataset 实例详解
Thomas2143: 多谢大佬

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

生命不息丶折腾不止 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。