怎样把JAVA包导入到hbase_将文件以API方式导入到HBase（小文件处理）

最新推荐文章于 2021-12-28 19:38:02 发布

鹤立烟雨

最新推荐文章于 2021-12-28 19:38:02 发布

阅读量517

点赞数

文章标签：怎样把JAVA包导入到hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33735910/article/details/114869248

版权

前面我们搭建了Hadoop及HBase本地开发环境，(参见前文：Win7 64位系统上Hadoop单机模式的安装及开发环境搭建，Win7 64位系统上HBase单机模式的安装)多数情况下，对于MapReduce模型，其底层使用HDFS作为存储，在HDFS中，其NameNode节点保存的是文件的元数据，DataNode保存真正的文件数据，如果是大型数据文件，这没有任何问题，但如果对于大量的小文件，其不足也是很明显的，NameNode中因为大量的小文件的元数据，占用大量的内存空间，将使得HDFS性能受到很大影响，一个可行的方案是，将大量小文件保存到HBase中，本文及后续文章讨论的是以HBase作为存储，如何将小文件或大文件导入到HBase中去，每个小文件将保存在独立的cell中，而对于大文件，将先上传到HDFS中，然后再使用MapReduce方法，将文件内容读入到HBase中。

场景描述：

对于小文件，我这里假设不足10M，这样我们就不需要对文件split并保存到不同的cell中，在HBase中，每一个行与列的交汇处，称为一个cell，其默认上限是10M，当然这个是可以通过配置文件调整的，调整的配置项是 “hbase.client.keyvalue.maxsize”，其默认值是10485760。对于文件源，可以是本地的文件，本测试用例中使用的是本地的email文件，大小才15k左右，我们将创建一个本地Java工程，读取本地文件后，再通过API保存到HBase中。另外一个可能的场景是，将本地程序变换为一个RESTful API，外部系统远程调用这个RESTful API，将数据存到HBase中，通过这个API，可以串起2个独立的系统。

项目步骤：

1：在IDEA中创建一个Java Maven工程

2：修改pom.xml，引入hbase 1.2.6，因为要使用API操作HBase

4.0.0

ImportFile

ImportFile

1.0-SNAPSHOT

apache

http://maven.apache.org

org.apache.hbase

hbase-client

1.2.6

org.apache.maven.plugi

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
怎样把JAVA包导入到hbase_将文件以API方式导入到HBase（小文件处理）

前面我们搭建了Hadoop及HBase本地开发环境，(参见前文：Win7 64位系统上Hadoop单机模式的安装及开发环境搭建，Win7 64位系统上HBase单机模式的安装)多数情况下，对于MapReduce模型，其底层使用HDFS作为存储，在HDFS中，其NameNode节点保存的是文件的元数据，DataNode保存真正的文件数据，如果是大型数据文件，这没有任何问题，但如果对于大量的小文件，其...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。