SparkStreaming读取kafka数据（2）-DirectStream方式

最新推荐文章于 2022-01-10 13:09:22 发布

黑暗行动

最新推荐文章于 2022-01-10 13:09:22 发布

阅读量1.6k

点赞数

分类专栏：大数据文章标签： sparkstreaming kafka direct

本文链接：https://blog.csdn.net/chy2z/article/details/85228019

版权

本文介绍如何在SparkStreaming中使用DirectStream方式从Kafka读取数据，并探讨了DirectStream的优点。详细讨论了checkpoint的设置与利用保存点进行数据恢复的方法，包括JavaStreamingContext.getOrCreate的关键应用。

摘要由CSDN通过智能技术生成

项目依赖

<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.3.0</version>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.0</version>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.11</artifactId>
      <version>2.3.0</version>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
      <version>2.3.0</version>
    </dependency>

dircet方式的优点

基于direct的方式，使用kafka的简单api，Spark Streaming自己就负责追踪消费的offset，并保存在checkpoint中。

checkpoint 使用方式

网络上有很多例子都只是写了如何设置保存点，没说如何恢复保存点。

//设置保存点 
jssc.checkpoint("src/main/resources/checkpoint");

那么如何利用保存点恢复数据呢，查看源码利用JavaStreamingContext.getOrCreate实现？

object JavaStreamingContext {

  /**
   * Either recreate a StreamingContext from checkpoint data or create a new StreamingContext.
   *

最低0.47元/天解锁文章

黑暗行动

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录