sparkstreaming 实时数据项目中遇到的问题

最新推荐文章于 2024-02-20 09:43:32 发布

砖厂码农

最新推荐文章于 2024-02-20 09:43:32 发布

阅读量1.3k

点赞数

分类专栏：大数据文章标签： sparkstreaming kafka

本文链接：https://blog.csdn.net/luo222/article/details/93036515

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.单个partition拉取数据条数的限制

val ppc = new PerPartitionConfig() {
override def maxRatePerPartition(topicPartition: TopicPartition): Long = 1000
}
KafkaUtils.createDirectStream[String, String](
ssc,
PreferConsistent,
Subscribe[String, String](Set(topic), kafkaParams, offsetMap),
ppc)

2. 保存kafka 的offset ：

I.网上的方法是处理rdd的时候保存offset：

val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

中间处理rdd

offsetRanges.foreach { offsetRange =>
println("partition : " + offsetRange.partition + " fromOffset: " + offsetRange.fromOffset + " untilOffset: " + offsetRange.untilOffset)
val topic_partition_key = offsetRange.topic + "_" + offsetRange.partition
p.set(topic_partition_key, offsetRange.untilOffset + "")
}

处理过程中即便出错，也会保存offset 导致数据丢失

II 我们项目中的做法是：

解析的时候把每一天数据的offset当作一个字段解析，单独保存每一个partition( of rdd)的offset

3. redis 连接使用后记得close