HBase实操:Spark-Read-HBase-Snapshot-Demo 分享

本文介绍了在大数据量场景下,如何使用Spark通过HBase快照(Snapshot)来减轻对HBase集群的压力。首先创建HBase表并插入数据,然后创建表的HDFS快照。接着展示代码实现Spark读取这些快照,详细解释了TableSnapshotInputFormat.setInput方法的参数,并提供了项目pom.xml文件的部分内容。
摘要由CSDN通过智能技术生成

前言:之前给大家分享了Spark通过接口直接读取HBase的一个小demo:HBase-Spark-Read-Demo,但如果在数据量非常大的情况下,Spark直接扫描HBase表必然会对HBase集群造成不小的压力。基于此,今天再给大家分享一下Spark通过Snapshot直接读取HBase HFile文件的方式。

首先我们先创建一个HBase表:test,并插入几条数据,如下:

hbase(main):003:0> scan 'test'
ROW                                              COLUMN+CELL                                                                                                                                                                                                                       
 r1                                              column=f:name, timestamp=1583318512414, value=zpb                                                                                               
 r2                                              column=f:name, timestamp=1583318517079, value=lisi                                                                                               
 r3                                              column=f:name, timestamp=1583318520839, value=wang                                                                                               

接着,我们创建该HBase表的快照,其在HDFS上路径如下:

hbase(main):005:0> snapshot 'test', 'test-snapshot'
0 row(s) in 0.3690 seconds

$ hdfs dfs -ls /apps/hbase/data/.hbase-snapshot
Found 1 items
drwxr-xr-x   - hbase hdfs          0 2020-03-21 21:24 /apps/hbase/data/.hbase-snapshot/test-snapshot

代码如下:

import org.apache.hadoop.fs.Path
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase._
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值