Java实现Spark整合Kafka和Hbase实战案例

Java实现SparkCore整合Kafka和Hbase实战案例

前言:

Kafka作为当下最主流的具有消峰缓存功能的分布式消息队列,被广泛应用于大数据领域,而目前比较主流的流计算消费方式主要包括Strom,SparkStreaming,以及Flink。下面就关于Spark整合kafka做简要介绍。
在spark1.3版本后,SparkStreaming可以使用kafkaUtils工具类里的KafkaUtils.createDirectStream此方法来创建离散化流Dstream,网上案例很多则不赘述,而这里则是采用另一种实现方法使用Sparkcore在任务执行的节点上来创建消费者实现对Kafka数据的消费。

在这里插入图片描述

需求描述:

使用Java实现Spark实时消费kafka数据,并将数据写入到hbase中,同时将消费日志保存到Hdfs上。

思路分析:

针对Kafka的Topic的分区数,假设生产集群中Topic数量为10,则在spark任务中创建一个具有10个分区(数量对应)的RDD,并且在RDD的每个分区中创建kafka的消费者实例去循环往复拉取数据消费,将消费到的数据按批处理,将每条数据生成Hbase的Put对象,后封装成putList后写进Hbase,采用Hdfs的客户端对象将消费到的数据作为消费日志写到hdfs上,即可实现该需求。

代码实现:

maven依赖包:

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>0.11.0.0</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.7.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-server</artifactId>
    <version>1.3.1</version>
</dependency>
<dependency>
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值