Spark共享变量和自定义分区

最新推荐文章于 2024-05-11 16:05:51 发布

weixin_30799995

最新推荐文章于 2024-05-11 16:05:51 发布

阅读量76

点赞数

文章标签：大数据 java

原文链接：http://www.cnblogs.com/lyr999736/p/9591576.html

版权

1.共享变量分两种：广播变量和累加器，实现任务间变量共享访问；
2.广播变量：
　　将变量以缓存并只读的方式分发至每个机器节点上。类似于hadoop中的分布式缓存。
　　特点：a.只读；b.在每个节点中缓存；
　　创建方式：调用sc.broadcast()创建广播变量；获取广播变量：bc.value
3.累加器：类似以hadoop中的计数器，进行“加”处理，用于统计处理。
　　创建方式：旧版本-->调用val acc = sc.accumulator(0)创建累加器；
　　　　　　　新版本-->调用val acc = sc.longAccumulator创建累加器，使用acc.add(Long l)

1.自定义分区实现方式：重写继承partitioner类
　　numPartitions: Int：返回创建出来的分区数。
　　getPartition(key: Any): Int：返回给定键的分区编号（0 到numPartitions-1）。
　　equals()：Java 判断相等性的标准方法。这个方法的实现非常重要，Spark 需要用这个
　　方法来检查你的分区器对象是否和其他分区器实例相同，这样Spark 才可以判断两个
RDD 的分区方式是否相同。

转载于:https://www.cnblogs.com/lyr999736/p/9591576.html

weixin_30799995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark共享变量和自定义分区

1.共享变量分两种：广播变量和累加器，实现任务间变量共享访问； 2.广播变量：　　将变量以缓存并只读的方式分发至每个机器节点上。类似于hadoop中的分布式缓存。　　特点：a.只读；b.在每个节点中缓存；　　创建方式：调用sc.broadcast()创建广播变量；获取广播变量：bc.value 3.累加器：类似以hadoop中的计数器，进...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。