大数据学习之路110-使用redis自己管理偏移量

未来@音律

于 2018-10-19 15:23:02 发布

阅读量1.6k

点赞数

分类专栏：大数据生态圈从入门到精通

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_37050372/article/details/83178103

版权

大数据生态圈从入门到精通专栏收录该内容

132 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在大数据学习过程中，利用Redis来管理Kafka消费者的偏移量，防止数据重复消费。通过清除旧数据，记录和检查偏移量，确保在连接Kafka前能正确读取上次的消费位置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先我们将上次存进去的数据清理掉：

然后写程序，在上次程序的基础上，增加了记录偏移量的代码：

package com.test.sparkStreaming

import com.test.utils.JPools
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, HasOffsetRanges, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import redis.clients.jedis.Jedis

/**