![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
GC_NJUPT_CODE
希望通过写作能够认识更多的朋友
关注一下我的公众号:三疯的大数据踩坑之路
很高兴和大家一起讨论技术问题
展开
-
记一次使用spark累加器来实现流程数据量监控功能
业务场景 采集工具采集的文件中以日期为标识,但是该文件中却可能包含了多天的数据,所以在统计当天推送文件记录总数时,需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系,就可以缩小详单表分区范围,尽快的统计出当天入库记录数。(这仅仅是该业务统计的一个指标,利用此处的累加器,还可以高效率的统计过滤,脏数据条数) 解决方案 方案一、再触发一次action 采即对落地...原创 2019-07-28 21:28:40 · 512 阅读 · 0 评论 -
累加器使用不当,导致spark driver内存溢出问题
问题说明 最近借助自定义spark累加器的方式去监控我司大数据平台处理接入的数据量(自定义累加器定义可以参考方法,可以参考AccumulatorV2.scala),但是最近项目局点同事反馈,文件数很多的情况下,spark driver端会出现OOM。(现场driver内存配置了80G) 问题定位过程 因为现场dump文件达到80+G,因此,不能把dump文件完整的拿到办公机器来分析,只能借...原创 2019-09-22 09:12:12 · 1102 阅读 · 0 评论