Spark同步数据到线上数据库的一个坑

最新推荐文章于 2023-08-01 15:20:50 发布

HaiwiSong

最新推荐文章于 2023-08-01 15:20:50 发布

阅读量1.1k

收藏 6

点赞数

分类专栏：大数据：Spark Python 文章标签： Spark mapPartitionsWithIndex mapPartitions foreachPartition 重复数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oTengYue/article/details/100042549

版权

大数据：Spark 同时被 2 个专栏收录

12 篇文章 5 订阅

订阅专栏

Python

7 篇文章 0 订阅

订阅专栏

背景

使用PySpark抽取数据同步到数据库时候（例如：clickhouse、mysql等数据库），使用RDD的foreachPartition、mapPartitions或mapPartitionsWithIndex等函数发现有的数据会执行同步多次，导致重复数据问题。

原因及解决方案

可以通过mapPartitionsWithIndex的函数打印partitionIndex，然后在日志查看的方式定位原因，综合分析可能由于以下三个原因导致：

1、代码中设置了spark推测执行开启spark.speculation=true（默认是false）导致，该参数的作用是：同时启动多个相同task（备份任务）处理相同的数据块，哪个完成的早，则采用哪个task的结果，同时终止其他的task。对于同步数据的场景该参数应该设置为spark.speculation=false
2、由于Spark的RDD的父依赖重算机制，下游子RDD运行中有可能导致上游未缓存的RDD重新计算，此时建议该同步数据算子执行后persist一下
3、executor的失败重试可能导致，由于是偶然性事件，因此建议同步完，增加需同步数据量和实际同步数据量相等校验。

HaiwiSong

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值