Spark RDD生成HFile快速导入数据到HBase

本文介绍了一种利用Spark RDD生成HFile,从而快速导入数据到HBase的方法。通过避免数据先写入memstore,直接利用Writer生成HFile,可以提升HBase的大数据入库效率。示例代码展示了如何创建HFileWriter、按region分区以及如何执行bulkLoad操作。
摘要由CSDN通过智能技术生成

Spark RDD生成HFile快速导入数据到HBase

主要思路

通过观察hbase regionserver对put操作的处理,可以发现,数据首先写入到
memstore,在达到指定大小后会调用StoreFile的Writer类将数据flush到存储设
备中,如果开启过压缩算法则会先执行相应的压缩,得到压缩后的数据和数据结
构再进行写入。
通过观察HBase的StoreFileWriter,和HBase的bulkLoad方法,不难发现,在此处,
我们可以手动实例化一个Writer,append需要导入的数据到writer中,即可
得到对应的HFile文件,只要该文件符合bulkLoad方法的要求,便可调用
bulkLoad方法将HFile文件移动到对应的region目录下,即可实现HBase数据的
快速入库操作。
该方法避免了数据put到memstore这一过程,又能借助spark的RDD实现分布式
操作,理论上能提高HBase大量数据入库的效率。

主要代码实现

直接上代码
此处示例仅针对单个columnFamily情况,多个cf只需要调用多次getHFileWriter即可

class HBaseBulkLoader(conf: Configuration) {
val fs = HFileSystem.get(conf)
val tempConf = new Configuration()(conf)
tempConf.setFloat(HConstants.HFILE_BLOCK_CACHE_SIZE_KEY, 0.0f)
val familyOptions = FamilyOptions(Algorithm.NONE, DataBlockEncoding.PREFIX_TREE, 65536)
val contextBuilder = new HFileContextBuilder()
.withCompression(familyOptions.compression)
.withChecksumType(HStore.getChecksumType(conf))
.withBytesPerCheckSum(HStore.getBytes

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值