Java实现SparkCore整合Kafka和Hbase实战案例
前言:
Kafka作为当下最主流的具有消峰和缓存功能的分布式消息队列,被广泛应用于大数据领域,而目前比较主流的流计算消费方式主要包括Strom,SparkStreaming,以及Flink。下面就关于Spark整合kafka做简要介绍。
在spark1.3版本后,SparkStreaming可以使用kafkaUtils工具类里的KafkaUtils.createDirectStream此方法来创建离散化流Dstream,网上案例很多则不赘述,而这里则是采用另一种实现方法使用Sparkcore在任务执行的节点上来创建消费者实现对Kafka数据的消费。
需求描述:
使用Java实现Spark实时消费kafka数据,并将数据写入到hbase中,同时将消费日志保存到Hdfs上。
思路分析:
针对Kafka的Topic的分区数,假设生产集群中Topic数量为10,则在spark任务中创建一个具有10个分区(数量对应)的RDD,并且在RDD的每个分区中创建kafka的消费者实例去循环往复拉取数据消费,将消费到的数据按批处理,将每条数据生成Hbase的Put对象,后封装成putList后写进Hbase,采用Hdfs的客户端对象将消费到的数据作为消费日志写到hdfs上,即可实现该需求。
代码实现:
maven依赖包:
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.11.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>1.3.1</version>
</dependency>
<dependency>