Java实现Spark整合Kafka和Hbase实战案例_kafka spark delta java-CSDN博客

本文链接：https://blog.csdn.net/m0_46383004/article/details/104952691

Java实现SparkCore整合Kafka和Hbase实战案例

前言：

Kafka作为当下最主流的具有消峰和缓存功能的分布式消息队列，被广泛应用于大数据领域，而目前比较主流的流计算消费方式主要包括Strom，SparkStreaming，以及Flink。下面就关于Spark整合kafka做简要介绍。
在spark1.3版本后，SparkStreaming可以使用kafkaUtils工具类里的KafkaUtils.createDirectStream此方法来创建离散化流Dstream，网上案例很多则不赘述，而这里则是采用另一种实现方法使用Sparkcore在任务执行的节点上来创建消费者实现对Kafka数据的消费。

在这里插入图片描述

需求描述:

使用Java实现Spark实时消费kafka数据，并将数据写入到hbase中，同时将消费日志保存到Hdfs上。

思路分析:

针对Kafka的Topic的分区数，假设生产集群中Topic数量为10，则在spark任务中创建一个具有10个分区（数量对应）的RDD，并且在RDD的每个分区中创建kafka的消费者实例去循环往复拉取数据消费，将消费到的数据按批处理，将每条数据生成Hbase的Put对象，后封装成putList后写进Hbase，采用Hdfs的客户端对象将消费到的数据作为消费日志写到hdfs上，即可实现该需求。

代码实现:

maven依赖包：

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>0.11.0.0</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-server</artifactId>
    <version>1.3.1</version>
</dependency>
<dependency>