SparkStreaming整合Kafka

最新推荐文章于 2023-12-28 12:33:33 发布

2NaCl

最新推荐文章于 2023-12-28 12:33:33 发布

阅读量165

点赞数 1

分类专栏：分布式计算文章标签： SparkStreaming kafka

本文链接：https://blog.csdn.net/qq_41936805/article/details/99689792

版权

分布式计算专栏收录该内容

13 篇文章 1 订阅

订阅专栏

文章目录

- - 目标一：基于Receiver-based Approach
  - 目标二：基于Direct Approach

之前说了SparkStreaming能接受的其中一种高级数据源——Flume，现在就来介绍另外一种高级数据源——Kafka
代码已托管至github：https://github.com/2NaCl/kafka-Streaming-demo

Kafka是一种基于消息发布订阅的消息队列，是分布式，分区有副本的日志服务，但是在0.8-0.10出现了一定的更新，如下：

这里选择的是0.8 or higher版本作为demo案例。

0.10的集成方法和0.8是有些相像的，但是api会出现少许的差异，下面就按照官方来进行一次整合demo 的演示。

目标一：基于Receiver-based Approach

导入maven依赖

		<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>

引入sparkstreaming的配置和kafka相关的配置，并且设置好四个参数

在这里插入图片描述

在开始写业务代码之前，我们要依据线程数，将输入进来的数据转换为map形式，这样才能给我们后面计算
然后创立kafka的流

在这里插入图片描述

进行wordcount统计

在这里插入图片描述

启动kafka，创立topic，名字自定义，然后设置一下这个
对应上面的四个参数
启动代码，测试

在这里插入图片描述

目标二：基于Direct Approach

大意是说，这种无接收器的方法，为了保证端到端的信息能安全到达，所以定期向kafka查询每个topic和partition中的偏移量，并且处理这些数据的时候，消费者API会读取之前定义好的一定范围的数据。

与之前相比，优点如下：

简化并行性：不用创建多个kafka的DataSource，也可以联合起来，因为我们使用了directStream，它可以让SparkStreaming创建和kafka分区个数一样的RDD，然后互相进行一对一的映射。
效率：第一种方法保证数据不丢失的方法是数据存入日志，第二种方法杜绝了这个问题，因为没有接收器，所以只要有足够的kafka，就可以保证数据安全
完整性：第一种方法使用kafka API在zookeeper中存储消耗的偏移量，第二种方法是利用checkpoint跟踪偏移量。

下面进行demo的演示：

导入依赖和之前一样
也是先进行sparkConf和StreamingContext的配置

在这里插入图片描述
3. 和之前不同的是，这次要创建的是DirectStream，先进入它的API看需要的参数，这里分别是String，String，StringDecoder和StringDecoder这四个泛型

在这里插入图片描述

然后传入参数，从上图可知，我们需要的是ssc，kafkaParams和topic
然后依次创建，ssc有了，然后创建kafkaParams

在这里插入图片描述
5. 创建topicSet

在这里插入图片描述

然后导入这几个参数即可

运行

2NaCl

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming整合Kafka

文章目录目标一：基于Receiver-based Approach目标二：Direct Approach之前说了SparkStreaming能接受的其中一种高级数据源——Flume，现在就来介绍另外一种高级数据源——KafkaKafka是一种基于消息发布订阅的消息队列，是分布式，分区有副本的日志服务，但是在0.8-0.10出现了一定的更新，如下：这里选择的是0.8 or higher版...
复制链接

扫一扫

专栏目录