Spark Streaming从Kafka中接收数据的两种方式

最新推荐文章于 2024-04-08 04:21:55 发布

李大洲

最新推荐文章于 2024-04-08 04:21:55 发布

阅读量540

点赞数

分类专栏： Spark 文章标签： SparkStreaming接收数据两种方式

原文链接：https://blog.csdn.net/weixin_41907511/article/details/84869597

版权

Spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文链接： https://blog.csdn.net/weixin_41907511/article/details/84869597

spark streaming流式处理kafka中的数据，首先是把数据接收过来，然后转换为spark streaming中的数据结构Dstream。接收数据的方式有两种：1.利用Receiver接收数据；2.直接从kafka读取数据。

基于Receiver的方式（旧方法）

流程：
此方法使用Receiver接收数据。Receiver是使用Kafka高阶API接口实现的。与所有接收器一样，从Kafka通过Receiver接收的数据存储在Spark执行器中，然后由Spark Streaming启动的作业处理数据。
在这里插入图片描述
问题：
在默认配置下，此方法可能会在失败时丢失数据。为确保零数据丢失，必须在Spark Streaming中另外启用预写日志（Write Ahead Logs）。这将同步保存所有收到的Kafka数据到分布式文件系统（例如HDFS）上，以便在发生故障时可以恢复所有数据。

注意点：
在Receiver的方式中，Kafka中的topic partition与Spark Streaming中生成的RDD partition无关。所以如果我们加大每个topic的partition数量，仅仅是增加线程来处理由单一Receiver消费的主题。但是这并没有增加Spark在处理数据上的并行度。
对于不同的Group和topic我们可以使用多个Receiver创建不同的Dstream来并行接收数据，之后可以利用union来统一成一个Dstream。
如果我们启用了Write Ahead Logs复制到文件系统如HDFS，那么storage level需要设置成 StorageLevel.MEMORY_AND_DISK_SER，也就是KafkaUtils.createStream(…, StorageLevel.MEMORY_AND_DISK_SER)

直接读取方式（ Direct Stream方法）

流程：
这种方法不使用接收器（Receiver）来接收数据，而是定期向Kafka查询每个主题的每个分区中的最新偏移量（offsets），并相应地定义要在每个批次（batch）中处理的偏移量范围。当Spark Streaming启动处理数据的作业时，利用Kafka的低阶API读取Kafka定义的偏移范围的数据。
在这里插入图片描述
优点：
这种方法相较于Receiver方式的优势在于：
简化的并行：在Receiver的方式中我们提到创建多个Receiver之后利用union来合并成一个Dstream的方式提高数据传输并行度。而在Direct方式中，Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据，这种映射关系也更利于理解和优化。
高效：在Receiver的方式中，为了达到0数据丢失需要将数据存入Write Ahead Log中，这样在Kafka和日志中就保存了两份数据，浪费！而第二种方式不存在这个问题，只要我们Kafka的数据保留时间足够长，我们都能够从Kafka进行数据恢复。
精确一次：在Receiver的方式中，使用的是Kafka的高阶API接口从Zookeeper中获取offset值（偏移量），这也是传统的从Kafka中读取数据的方式，但由于Spark Streaming消费的数据和Zookeeper中记录的offset不同步，这种方式偶尔会造成数据重复消费。而第二种方式，直接使用了简单的低阶Kafka API，Offsets则利用Spark Streaming的checkpoints进行记录，消除了这种不一致性。

缺点：
Direct需要用户采用checkpoint或者第三方存储来维护offsets，而不像Receiver-based那样，通过ZooKeeper来维护Offsets，此提高了用户的开发成本

/**
  * Kafka 0.10的Spark Streaming集成(spark获取kafka数据的最新方式)
  */
object KafkaDirectStream {

def main(args: Array[String]): Unit = {
//创建SparkConf，如果将任务提交到集群中，那么要去掉.setMaster(“local[2]”)

val conf = new SparkConf().setAppName("DirectStream").setMaster("local[2]")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
//创建一个StreamingContext，其里面包含了一个SparkContext
val streamingContext = new StreamingContext(sc, Seconds(5))

//配置kafka的参数
/**
  * Kafka服务监听端口
  * 指定kafka输出key的数据类型及编码格式（默认为字符串类型编码格式为uft-8）
  * 指定kafka输出value的数据类型及编码格式（默认为字符串类型编码格式为uft-8）
  * 消费者ID，随意指定
  * 指定从latest(最新)还是smallest(最早)处开始读取数据
  * 如果true,consumer定期地往zookeeper写入每个分区的offset
  */
val kafkaParams = Map[String, Object](

  "bootstrap.servers" -&gt; "192.168.2.210:9092",    //kafka机器IP：端口
  "key.deserializer" -&gt; classOf[StringDeserializer],
  "value.deserializer" -&gt; classOf[StringDeserializer],
  "group.id" -&gt; "g1",
  "auto.offset.reset" -&gt; "latest",
  "partition.assignment.strategy" -&gt; "org.apache.kafka.clients.consumer.RangeAssignor",
  "enable.auto.commit" -&gt; (false: java.lang.Boolean)

)

//要监听的Topic，可以同时监听多个
val topics = Array("test")

//在Kafka中记录读取偏移量
val stream = KafkaUtils.createDirectStream[String, String](
  streamingContext,
  //位置策略（可用的Executor上均匀分配分区）
  LocationStrategies.PreferConsistent,
  //消费策略（订阅固定的主题集合）
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
)


//迭代DStream中的RDD(KafkaRDD)，将每一个时间点对应的RDD取出来
stream.foreachRDD { rdd =&gt;
  //获取该RDD对应的偏移量
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  //取出对应的数据
  rdd.foreach{ line =&gt;
    println(line.key() + " " + line.value())
  }

  //异步更新偏移量到kafka中
  // some time later, after outputs have completed
  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
}
streamingContext.start()
streamingContext.awaitTermination()

}
}