Spark踩坑vlog——join时shuffle的大坑

最新推荐文章于 2022-09-23 19:15:44 发布

DSH12138

最新推荐文章于 2022-09-23 19:15:44 发布

阅读量449

点赞数

分类专栏：大数据-Spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35583915/article/details/118399451

版权

业务背景

项目中将两个表进行join，一个大表，一个小表，在平时200 executor-core * 20G executor-memory的资源下跑的挺好的，随着业务数据的增加，有一天，这个任务就跑不出来了，重试5次每次都失败，最后任务报错；
报错时，俩表情况如下：大表的数据量约为278亿，1TB左右，另一个的数据量约为480万，4GB左右；通过DAG图发现，任务卡在俩表join的那个stage上；

报错信息

1.spark sql实现报错

当使用SparkSQL对俩表进行join时，报错为：
org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0
以及
org.apache.spark.shuffle.FetchFailedException:Failed to connect to hostname:port

2.rdd实现报错

当使用rdd对俩表进行join时，报错为：
WARN TaskSetManager:Lost task 17.1 in stage 4.1:java.io.FileNotFoundException:一个文件/目录
以及
org.apache.spark.shuffle.FetchFailedException:Error in opening Fi

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Spark踩坑vlog——join时shuffle的大坑

业务背景    项目中将两个表进行join，一个大表，一个小表，在平时200 executor-core * 20G executor-memory的资源下跑的挺好的，随着业务数据的增加，有一天，这个任务就跑不出来了，重试5次每次都失败，最后任务报错；    报错时，俩表情况如下：大表的数据量约为278亿，1TB左右，另一个的数据量约为480万，4GB左右；通过DAG图发现，任务卡在俩表join的那个stage上；报错信息
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。