[Spark基础]-- spark streaming从指定offset处消费Kafka数据(第一种方式)

最新推荐文章于 2025-08-15 17:40:55 发布

oo寻梦in记

最新推荐文章于 2025-08-15 17:40:55 发布

阅读量1.8w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/53706446

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何在Spark Streaming程序意外退出后，从上次记录的offset继续消费Kafka数据，避免数据丢失。环境为kafka-0.9.0、spark-1.6.0等。实现步骤包括引入依赖、编写测试类，并提供了相关参考文档链接。

一、情景：当spark streaming程序意外退出时，数据仍然再往Kafka中推送，然而由于Kafka默认是从latest的offset读取，这会导致数据丢失。为了避免数据丢失，那么我们需要记录每次消费的offset，以便下次检查并且从指定的offset开始读取

二、环境：kafka-0.9.0、spark-1.6.0、jdk-1.7、scala-2.10.5、idea16

三、实现代码：

1、引入spark和kafka的相关依赖包

<?xml version="1.0" encoding="UTF-8"?>  
<project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  
         xmlns="http://maven.apache.org/POM/4.0.0"  
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">  
    <modelVersion>4.0.0</modelVersion>  
  
    <groupId>com.ngaa</groupId>  
    <artifactId>test-my</artifactId>  
    <version>1.0-SNAPSHOT</version>

了解本专栏