SparkStreaming使用checkpoint存在的问题及解决方案

跳跃的list

于 2021-09-24 10:19:52 发布

阅读量1k

点赞数 1

分类专栏： spark 文章标签： kafka spark big data

本文链接：https://blog.csdn.net/qq_40158089/article/details/100673433

版权

SparkStreaming使用checkpoint时遇到的问题包括代码或配置更新导致的序列化异常和数据重复或丢失。官方建议在数据存储支持事务的情况下同步结果和偏移量。管理Kafka偏移量的方法有：存储在Kafka（实验性API）、Zookeeper（默认存储）和HBase。推荐使用Zookeeper来维护offsets以避免数据丢失。

摘要由CSDN通过智能技术生成

SparkStreaming使用checkpoint存在的问题及解决方案

sparkstreaming关于偏移量的管理

在 Direct DStream初始化的时候，需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。
- offsets就是步骤4中所保存的offsets位置
读取并处理消息
处理完之后存储结果数据
- 用虚线圈存储和提交offset只是简单强调用户可能会执行一系列操作来满足他们更加严格的语义要求。这包括幂等操作和通过原子操作的方式存储offset。
最后，将offsets保存在外部持久化数据库如 HBase, Kafka, HDFS, and ZooKeeper中

SparkStreaming使用checkpoint存在的问题

SparkStreaming在处理kafka中的数据时，存在一个kafka offset的管理问题：

官方的解决方案是checkpoint:
- checkpoint是对sparkstreaming运行过程中的元数据和
  每次rdds的数据状态保存到一个持久化系统中，当然这里面也包含了offset，一般是HDFS,S3，如果程序挂了，或者集群挂了，下次启动仍然能够从checkpoint中恢复，从而做到生产环境的7*24高可用。如果checkpoint存储做hdfs中，会带来小文件的问题。

但是checkpoint的最大的弊端在于，一旦你的流式程序代码或配置改变了，或者更新迭代新功能了，这个时候，你先停旧的sparkstreaming程序，然后新的程序打包编译后执行运行，会出现两种情况：

（1）启动报错，反序列化异常
（2）启动正常，但是运行的代码仍然是上一次的程序的代码。

为什么会出现上面的两种情况？

这是因为checkpoint第一次持久化的时候会把整个相关的jar给序列化成一个二进制文件，每次重启都会从里面恢复，但是当你新的
程序打包之后序列化加载的仍然是旧的序列化文件，这就会导致报错或者依旧执行旧代码。有的同学可能会说，既然如此，直接把上次的checkpoint删除了，不就能启动了吗？确实是能启动，但是一旦你删除了旧的checkpoint，新启动的程序，只能从kafka的smallest或者largest的偏移量消费，默认是从最新的，如果是最新的，而不是上一次程序停止的那个偏移量
就会导致有数据丢失，如果是老的，那么就会导致数据重复。不管怎么样搞，都有问题。
Spark Streaming - Spark 2.1.0 Documentation

针对这种问题，spark官网给出了2种解决办法：

（1）旧的不停机，新的程序继续启动，两个程序并存一段时间消费。评价：仍然有丢重复消费的可能

（2）停机的时候，记录下最后一次的偏移量，然后新恢复的程序读取这个偏移量继续工作，从而达到不丢消息。评价：官网没有给出具体怎么操作，只是给了个思路：自己存储offsets，

Your own data store

For data stores that support transactions, saving offsets in the same transaction as the results can keep the two in sync, even in failure situations. If you’re careful about detecting repeated or skipped offset ranges, rolling back the transaction prevents duplicated or lost messages from affecting results. This gives the equivalent of exactly-once semantics. It is also possible to use this tactic even for outputs that result from aggregations, which are typically hard to make idempotent.

#Java
// Th#e details depend on your data store, but the general idea looks like this

// begin from the the offsets committed to the database
Map<TopicPartition, Long> fromOffsets = new HashMap<>();
for (resultSet : selectOffsetsF

最低0.47元/天解锁文章

跳跃的list

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming使用checkpoint存在的问题及解决方案

SparkStreaming使用checkpoint存在的问题及解决方案sparkstreaming关于偏移量的管理转存失败重新上传取消在 Direct DStream初始化的时候，需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置读取并处理消息处理完之后存储结...
复制链接

扫一扫