hbase导入csv文件_HBase应用（一）：数据批量导入说明

最新推荐文章于 2022-02-28 23:24:48 发布

以号拼命多次

最新推荐文章于 2022-02-28 23:24:48 发布

阅读量1k

点赞数 3

文章标签： hbase导入csv文件

本文链接：https://blog.csdn.net/weixin_36091906/article/details/112439999

版权

特别说明：该专栏文章均来源自微信公众号【大数据实战演练】，欢迎关注！

版本说明：

通过 HDP 3.0.1 安装的 HBase 2.0.0

一、概述

HBase 本身提供了很多种数据导入的方式，目前常用的有三种常用方式：

使用 HBase 原生 Client API
使用 HBase 提供的 TableOutputFormat，原理是通过一个 Mapreduce 作业将数据导入 HBase
使用 Bulk Load 方式：原理是使用 MapReduce 作业以 HBase 的内部数据格式输出表数据，然后直接将生成的 HFile 加载到正在运行的 HBase 中。

二、方式对比

前两种方式：需要频繁的与数据所存储的 RegionServer 通信，一次性导入大量数据时，可能占用大量 Regionserver 资源，影响存储在该 Regionserver 上其他表的查询。

第三种方式：了解过 HBase 底层原理的应该都知道，HBase 在 HDFS 中是以 HFile 文件结构存储的，一个比较高效便捷的方法就是先生成 HFile，再将生成的 HFile 加载到正在运行的 HBase 中。即使用 HBase 提供的 HFileOutputFormat2 类或者 importtsv 工具来完成上述操作。

经过对比得知：如果数据量很大的情况下，使用第三种方式(Bulk Load)更好。占用更少的 CPU 和网络资源就实现了大数据量的导入。本篇文章也将主要介绍 Bulk Load 方式。

三、Bulk Load 说明

Bulk Load 方式之所以高效，是因为绕过了正常写数据的路径(WAL、MemStore、flush)。总的来说，Bulk Load 方式使用 MapReduce 作业以 HBase 的内部数据格式输出表数据，然后直接将生成的 HFiles 加载到正在运行的 HBase 中。与仅使用 HBase API 相比，使用 Bulk Load 方式不占用 Region 资源，不会产生巨量的写入 I/O，将使用更少的 CPU 和网络资源。

HBase Bulk Load 过程包括两个主要步骤：

将准备的数据生成 HFile ：使用 importtsv 工具将数据转化为 HFile ，或者通过 HBase 提供的 HFileOutputFormat2 类编写 MapReduce 程序。
将 HFile 导入到 HBase 中：使用 LoadIncrementalHFiles 或者 completebulkload 将 HFile 导入到 HBase中。

流程如下图所示：

最低0.47元/天解锁文章

以号拼命多次

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hbase导入csv文件_HBase应用（一）：数据批量导入说明

特别说明：该专栏文章均来源自微信公众号【大数据实战演练】，欢迎关注！版本说明：通过 HDP 3.0.1 安装的 HBase 2.0.0一、概述HBase 本身提供了很多种数据导入的方式，目前常用的有三种常用方式：使用 HBase 原生 Client API使用 HBase 提供的 TableOutputFormat，原理是通过一个 Mapreduce 作业将数据导入 HBase使用 Bulk Lo...
复制链接

扫一扫