SparkStreaming与kafka通过直连方式读取数据

最新推荐文章于 2023-02-27 20:58:08 发布

Lu_Xiao_Yue

最新推荐文章于 2023-02-27 20:58:08 发布

阅读量1.1k

点赞数

文章标签： kafka SparkStreaming 大数据

本文链接：https://blog.csdn.net/Lu_Xiao_Yue/article/details/83929019

版权

本文探讨了Spark-Streaming的两种数据读取方式：Receive与Direct。Receive方式效率较低，易丢失数据，而Direct方式高效，但需手动维护偏移量。在Direct模式下，每个RDD分区对应Kafka的一个分区，Task持续读取数据。使用Receiver时，无需指定broker，而在直连方式中必须。Zookeeper用于记录消费者组和topic的偏移量信息，允许多个组读取同一topic数据。

摘要由CSDN通过智能技术生成

1、Spark-Streaming的receive的方式和直连方式有什么区别:
Receive接收固定时间间隔的数据（放在内存中），达到固定的时间才进行处理，效率低并且容易丢失数据（Kafka高级API），自动维护偏移量
Direct直连方式，相当于直接连接到Kafka的分区上，相当于Kafka底层API，效率很高，需要自己维护偏移量，读一条处理一条（把指定的时间间隔当做一个批次）。
2、直接连到kafka的分区上读取，一个RDD的分区对应一个kafka的分区，一个分区会生成一个Task，这个Task不会消失，会一直盯着这个分区，不停的读取数据。
3、在用Reciver方式，消费消费者时，不用指定broker，在直连的方式，需要指定broker，因为这种方式相当于直接练到Kafka的分区中，需要broker
4、zookeeper的作用，zookeeper中记录的是，以组名和topic名作为唯一标识，不同的组可以读取同一topic中的数据，记偏移量是从前面记录

package day01.Dirctor

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import kafka.utils.{
   ZKGroupTopicDirs, ZkUtils}
import org.I0Itec.zkclient.ZkClient
import org.apache.spark.streaming.dstream.{
   DStream, InputDStream}
import org.apache.spark.streaming.kafka.{
   HasOffsetRanges, KafkaUtils, OffsetRange}
import org.apache.spark.streaming.{
   Duration, StreamingContext}
import org.apache.spark.{
   SparkConf, SparkContext}

object DrictorDemoV4 {
   
  def main(args: Array[String]): Unit = {
   
    val group = "groupTT"</