Hbase数据迁移之bulkload

最新推荐文章于 2024-06-20 08:52:54 发布

cff603

最新推荐文章于 2024-06-20 08:52:54 发布

阅读量3.3k

点赞数

分类专栏：云计算文章标签： Hbase数据备份 bulkload

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cff603/article/details/82726107

版权

本文介绍了HBase的Bulk Load数据迁移方法，它通过MapReduce作业生成HFile，然后直接导入到HBase，避免了频繁的RegionServer通信。Bulk Load包括准备数据文件和导入HBase两个步骤，涉及HFileOutputFormat、TotalOrderPartitioner和completebulkload工具。在使用过程中，需要注意region边界变化可能引发的数据split，并正确配置Hadoop环境变量。

摘要由CSDN通过智能技术生成

一、概述

HBase本身提供了很多种数据导入的方式，通常有两种常用方式：

1、使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase

2、另一种方式就是使用HBase原生Client API

这两种方式由于需要频繁的与数据所存储的RegionServer通信，一次性入库大量数据时，特别占用资源，所以都不是最有效的。了解过HBase底层原理的应该都知道，HBase在HDFS中是以HFile文件结构存储的，一个比较高效便捷的方法就是使用 “Bulk Loading”方法直接生成HFile，即HBase提供的HFileOutputFormat类。

二、Bulk Load基本原理

Bulk Load处理由两个主要步骤组成

1、准备数据文件

Bulk Load的第一步，会运行一个Mapreduce作业，其中使用到了HFileOutputFormat输出HBase数据文件：StoreFile。HFileOutputFormat的作用在于使得输出的HFile文件可以适应单个region，使用TotalOrderPartitioner类将map输出结果分区到各个不同的key区间中，每个key区间都对应着HBase表的region。

2、导入HBase表

第二步使用completebulkload工具将第一步的结果文件依次交给负责文件对应region的RegionServer，并将文件move到region在HDFS上的存储目录中，一旦完成，将数据开放给clients。

如果在bulk load准备导入或在准备导入与完成导入的临界点上发现region的边界已经改变，completebulkload工具会自动split数据文件到新的边界上&#

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hbase数据迁移之bulkload

一、概述HBase本身提供了很多种数据导入的方式，通常有两种常用方式：1、使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase2、另一种方式就是使用HBase原生Client API这两种方式由于需要频繁的与数据所存储的RegionServer通信，一次性入库大量数据时，特别占用资源，所以都不是最有效的。了解过HBase底...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。