spark coalesce java_Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

最新推荐文章于 2023-05-09 09:56:07 发布

WeQuant-Jason

最新推荐文章于 2023-05-09 09:56:07 发布

阅读量558

点赞数

文章标签： spark coalesce java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33973572/article/details/114948669

版权

如果你使用 coalesce 或 repartition 来修改程序的并行度： val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)

或

val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)

val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)

val df = spark.read.json("/user/iteblog/json").coalesce(4).map(xxxx)

通过 coalesce 或 repartition 函数我们一方面可以减少 Task 数据从未达到减少作业输出文件的数量；同时我们也可以加大并行度从而提高程序的运行效率。

如果想及时了解iteblog_hadoop

我们现在越来越多的人使用 Spark SQL 来编写程序，可是在 coalesce 或 repartition的。值得高兴的是，国内的开发者为 Spark SQL 开发了一个功能，使得我们在 Spark SQL 里面也能用这两个函数，详见 SPARK-24940。这个功能在 COALESCE 或 REPARTITION 关键字暗示来设置程序的并行度。使用如下： package com.iteblog

import java.util.UUID

import org.apache.spark.sql.SparkSession

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark coalesce java_Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

如果你使用 coalesce 或 repartition 来修改程序的并行度： val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/js...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。