Spark-Streaming中得Kafka数据源|Kafka 0-8 Receive模式|Kafka 0-8 Direct模式|Kafka 0-10 Direct模式

本文介绍了Spark Streaming处理Kafka数据的两种模式:ReceiverAPI(Kafka 0-8的Receive和Direct模式)和DirectAPI(Kafka 0-10的Direct模式)。ReceiverAPI可能导致Executor内存溢出,而DirectAPI由计算Executor直接消费数据,更可控。Receiver模式的offset存储在Zookeeper,Direct模式的offset存储在__consumer_offsets主题或手动维护。
摘要由CSDN通过智能技术生成

版本选型

  1. ReceiverAPI:需要一个专门的Executor去接收数据,然后发送给其他的Executor做计算。存在的问题,接收数据的Executor和计算的Executor速度会有所不同,特别在接收数据的Executor速度大于计算的Executor速度,会导致计算数据的节点内存溢出。
  2. DirectAPI:是由计算的Executor来主动消费Kafka的数据,速度由自身控制。(高版本后,不支持Receiver了)

在这里插入图片描述

Kafka 0-8 Receive模式

  1. 导入依赖
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

  1. 代码实现
package com.atguigu.kafka

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{
   DStream, ReceiverInputDStream}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{
   Seconds, StreamingContext}

object Receiver_Test {
   
  def main(args: Array[String]): Unit = {
   
    //1.创建SparkConf
    val sparkConf: SparkConf = new SparkConf().setAppName("ReceiverWordCount").setMaster("local[*]")

    //2.创建StreamingContext
    val ssc = new StreamingContext(sparkConf, Seconds(3))

    // 使用receiverAPI 读取kafka数据 创建DStrem
    val kafkaDStrem: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc,
      "hadopp102:2181,hadopp102:2181,hadopp102:2181",
      "big",
      Map("test" -> 2))


    // 计算wordcount 并打印
    val lineDStream: DStream[String] = kafkaDStrem.map(_._2)
    lineDStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).print()

    //5.开启任务
    ssc.start()
    ssc
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值