spark写入es出现部分数据重复问题排查和解决

最新推荐文章于 2024-04-29 11:15:19 发布

soaring0121

最新推荐文章于 2024-04-29 11:15:19 发布

阅读量1.9k

点赞数

分类专栏： SPARK 文章标签： elasticsearch 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soaring0121/article/details/124969246

版权

SPARK 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

问题背景

作业流程是从hive读取数据处理后写入es，一直跑的很正常，突然今天发现部分数据重复了

问题排查

由于是长期正常运行的作业未发生变更，且排查了上游hive表不存在数据重复问题，首先排除了数据和逻辑问题
spark作业是运行成功的，不存在作业失败重试的问题
推测是spark作业内部存在失败重试的问题，于是查看了spark history job的 timeline看到下面这个图表，可以确认是由于11、13节点在写入部分数据后失败了，yarn启动了21、22重新执行导致11、13写入的数据又写了一次

问题原因

导致问题出现的原因有两个，一个是spark2本身shuffle不稳定，且作业运行在任务高峰时段，集群资源紧张，导致节点运行失败。另一个是作业本身没有做数据级幂等，需要对重复写入的数据去重。

问题解决

1.做数据级幂等，针对es 的index写入增加配置 .option("es.write.operation", "upsert").option("es.mapping.id", "id")

2.将spark作业执行升级到更稳定的spark3

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark写入es出现部分数据重复问题排查和解决

问题背景作业流程是从hive读取数据处理后写入es，一直跑的很正常，突然今天发现部分数据重复了问题排查由于是长期正常运行的作业未发生变更，且排查了上游hive表不存在数据重复问题，首先排除了数据和逻辑问题 spark作业是运行成功的，不存在作业失败重试的问题推测是spark作业内部存在失败重试的问题，于是查看了spark history job的 timeline看到下面这个图表，可以确认是由于11、13节点在写入部分数据后失败了，yarn启动了21、22重新执行导致11、13写入的数据又
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。