Spark未知问题—updateStateByKey的checkpoint引发的一系列问题

最新推荐文章于 2021-02-01 11:57:14 发布

voidfaceless

最新推荐文章于 2021-02-01 11:57:14 发布

阅读量435

点赞数

分类专栏：大数据 spark-streaming spark 文章标签： updateStateByKey checkpoint spark-streaming spark

本文链接：https://blog.csdn.net/voidfaceless/article/details/102555509

版权

spark 同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

大数据

6 篇文章 0 订阅

订阅专栏

spark-streaming

5 篇文章 0 订阅

订阅专栏

Spark未知问题—updateStateByKey的checkpoint引发的一系列问题

楼主在应用spark-streaming时候，用到了updateStateByKey这个算子。updateStateByKey需要事先指定一个checkpoint地址，用于存储Metadata checkpointing和Data checkpointing。
但是我在执行的时候，发现checkpoint文件随着时间的进行，会变得越来越大，同时spark运行也越来越慢。大概执行了三四天之后，执行时间会大于spark-streaming的batch-interval，导致阻塞，同时还发生了ERROR：

ERROR LiveListenerBus: Listener EventLoggingListener threw an exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): BP-1680992760-10.66.200.135-1496659127387:blk_1230053254_156330429 does not exist or is not under Constructionnull

最后用spark-ui发现，在调用checkpoint之前有一些map和filter算子执行的很慢，后来我做了两件事：1，将map和filter用flatmap替换，2，加大运算资源。