Hbase 第五节课 hbase的优化

最新推荐文章于 2024-07-19 21:08:24 发布

胡说龙龙

最新推荐文章于 2024-07-19 21:08:24 发布

阅读量69

点赞数

文章标签： hbase big data hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47120517/article/details/121790364

版权

目录

如何实现：

实现步骤：

2、参数调优

3、Hbase BulkLoading

1、预分区

默认创建Hbase表时候会自动创建一个region分区，当导入数据的时候，所有的Hbase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入 HBase时，会按照region分区情况，在集群内做数据的负载均衡。

如果知道hbase数据表的key的分布情况，就可以在建表的时候对hbase进行region的预分区。这样做的好处是防止大数据量插入的热点问题，提高数据插入的效率。

如何实现：

首先就是要想明白数据的key是如何分布的，然后规划一下要分成多少region，每个region的startkey和endkey是多少，然后将规划的key写到一个文件中。

实现步骤：

base shell中建分区表，指定分区文件

可以通过指定SPLITS_FILE的值指定分区文件,如果分区信息比较少，也可以直接用SPLITS分区。我们可以通过如下命令建一个分区表，指定第一步中生成的分区文件

create 'split_table_test', 'cf', {SPLITS_FILE => 'region_split_info.txt'}

使用hive关联hbase，用hive创建一个外部表

2、参数调优

3、Hbase BulkLoading

优点：

如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。
它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。

限制：

仅适合初次数据导入，即表内数据为空，或者每次入库表内都无数据的情况。
HBase集群与Hadoop集群为同一集群，即HBase所基于的HDFS为生成HFile的MR的集群

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hbase 第五节课 hbase的优化

目录1、预分区如何实现：实现步骤：2、参数调优3、Hbase BulkLoading1、预分区默认创建Hbase表时候会自动创建一个region分区，当导入数据的时候，所有的Hbase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入 HBase时，会按照region分区情况，在集群内做数据的负载均衡。如果知道hbase数据表的key的分布情况，就可以在建表的时候
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。