spark-大表join优化方案

最新推荐文章于 2024-05-11 08:46:25 发布

猿与禅

最新推荐文章于 2024-05-11 08:46:25 发布

阅读量1.7w

点赞数 7

分类专栏： spark 文章标签： spark 大表join 优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16038125/article/details/72956949

版权

spark 专栏收录该内容

51 篇文章 1 订阅

订阅专栏

数据量：
1~2G左右的表与3~4T的大表进行Join

拆分
将任务数据分为多个结果RDD，将各个RDD的数据写入临时的hdfs目录，最后合并

取所需的字段和数据，并去重，减少data shuffle的规模

调整并行度和shuffle参数

spark-submit 参数

#提高shuffle阶段的任务并行度，降低单个任务的内存占用
--conf spark.default.parallelism=2000 
#提高shuffle 缓冲区大小
--conf spark.shuffle.file.buffer=128k 
#增加堆外内存大小
--conf spark.yarn.executor.memoryOverhead=1g

增加资源

这就不细说了，num-executors 不是越多越好有边界

优化数据倾斜

检查数据是否是skewed data，即join出的key value pair大小极度不均，解决方案可以参考：
https://zhuanlan.zhihu.com/p/21483985

关注

7
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark-大表join优化方案

数据量： 1~2G左右的表与3~4T的大表进行Join拆分将任务数据分为多个结果RDD，将各个RDD的数据写入临时的hdfs目录，最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并行度，降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spa
复制链接

扫一扫

专栏目录

猿与禅 CSDN认证博客专家 CSDN认证企业博客

码龄10年

257: 原创

4831: 周排名

3949: 总排名

63万+: 访问

: 等级

7224: 积分

3168: 粉丝

407: 获赞

78: 评论

875: 收藏

私信

关注

热门文章

分类专栏

最新评论

AI大模型-使用 FastChat 部署ChatGLM3
猿与禅: 可以的，文章最后有我的微信名片
AI大模型-使用 FastChat 部署ChatGLM3
湾区会客厅: 文章写的不错，有机会可以交流一下？
ollama集成open-webui本地部署大模型应用
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
docker 安装
猿与禅: 1. **创建和启动服务容器**： - `docker-compose up`：启动服务容器并根据需要构建镜像。加上 `-d` 参数（`docker-compose up -d`）则会在后台（detached mode）启动容器。 - `docker-compose up --build`：在启动服务之前先重新构建镜像。 2. **停止并删除容器、网络和卷**： - `docker-compose down`：停止并删除由 `docker-compose up` 创建的所有资源，包括容器、网络和挂载的数据卷。若要保留卷，可以使用 `docker-compose down --volumes=false`。 3. **查看服务状态**： - `docker-compose ps`：列出所有服务及其容器的当前状态。 4. **重新创建容器**： - `docker-compose restart [SERVICE...]`：重启指定服务或所有服务的容器。 5. **进入容器**： - `docker-compose exec [SERVICE] [COMMAND]`：在指定服务的容器内执行命令。 6. **查看日志**： - `docker-compose logs [SERVICE...]`：查看服务容器的日志输出。 7. **构建镜像**： - `docker-compose build [SERVICE...]`：构建（或重新构建）服务的镜像。 8. **运行一次性命令**： - `docker-compose run [SERVICE] [COMMAND]`：在指定服务的容器中运行一次性命令，不改变服务的容器状态。 9. **配置检查**： - `docker-compose config`：验证并打印YAML配置文件的解析结果。 10. **暂停与恢复服务**： - `docker-compose pause [SERVICE...]`：暂停服务容器的运行。 - `docker-compose unpause [SERVICE...]`：恢复已暂停的服务容器。除此之外，还有其他一些命令，如： - `docker-compose pull`：拉取服务所需的镜像。 -
docker 安装
猿与禅: 1. **创建和启动服务容器**： - `docker-compose up`：启动服务容器并根据需要构建镜像。加上 `-d` 参数（`docker-compose up -d`）则会在后台（detached mode）启动容器。 - `docker-compose up --build`：在启动服务之前先重新构建镜像。 2. **停止并删除容器、网络和卷**： - `docker-compose down`：停止并删除由 `docker-compose up` 创建的所有资源，包括容器、网络和挂载的数据卷。若要保留卷，可以使用 `docker-compose down --volumes=false`。 3. **查看服务状态**： - `docker-compose ps`：列出所有服务及其容器的当前状态。 4. **重新创建容器**： - `docker-compose restart [SERVICE...]`：重启指定服务或所有服务的容器。 5. **进入容器**： - `docker-compose exec [SERVICE] [COMMAND]`：在指定服务的容器内执行命令。 6. **查看日志**： - `docker-compose logs [SERVICE...]`：查看服务容器的日志输出。 7. **构建镜像**： - `docker-compose build [SERVICE...]`：构建（或重新构建）服务的镜像。 8. **运行一次性命令**： - `docker-compose run [SERVICE] [COMMAND]`：在指定服务的容器中运行一次性命令，不改变服务的容器状态。 9. **配置检查**： - `docker-compose config`：验证并打印YAML配置文件的解析结果。 10. **暂停与恢复服务**： - `docker-compose pause [SERVICE...]`：暂停服务容器的运行。 - `docker-compose unpause [SERVICE...]`：恢复已暂停的服务容器。除此之外，还有其他一些命令，如： - `docker-compose pull`：拉取服务所需的镜像。 - `docker-compose stop`：停止服务容器而不删除它们。 - `docker-compose top`：查看服务容器中运行的进程。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

猿与禅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。