hbase export 使用小技巧

最新推荐文章于 2023-01-18 13:59:45 发布

置顶

二侃

最新推荐文章于 2023-01-18 13:59:45 发布

阅读量4.8k

点赞数 1

分类专栏： hbase备份

本文链接：https://blog.csdn.net/wzg0312/article/details/41693181

版权

本文总结了HBase导出数据的实用技巧，包括将数据先存储到HDFS，调整scanner.batch大小以及利用compress选项压缩数据以节省空间。

摘要由CSDN通过智能技术生成

在工作中经常使用hbase的export功能来导出数据，在此总结几种小技巧：

建议导出的数据先放到hdfs上，再从hdfs上拿下来

之前经常使用如下命令进行数据备份：

hbase org.apache.hadoop.hbase.mapreduce.Export backup_table file:///opt/backup_table

使用单机版做此操作是没有问题的，但是当使用多机版的hbase的时候，如果你的系统中有多个mapreduce的tasktracker。那么数据会被导出到多台机器（每个tasktracker）的local目录。

所以在使用export 命令在进行导出操作时，建议现将数据导出到hdfs中，然后再将数据从hdfs中获取下来：

# 默认不写file://的时候就是导出到hdfs上了
hbase org.apache.hadoop.hbase.mapreduce.Export backup_table /tmp/backup_table 
hadoop dfs -get /tmp/backup_table /opt/backup_table

导出时可以限制scanner.batch的大小

如果在hbase中的一个row出现大量的数据，那么导出时会报出ScannerTimeoutException的错误。

这时候需要设置hbase.export.scaaner.batch 这个参数。这样导出时的错误就可以避免了。

最低0.47元/天解锁文章

二侃

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录