怎样把JAVA包导入到hbase_将文件以API方式导入到HBase(小文件处理)

前面我们搭建了Hadoop及HBase本地开发环境,(参见前文:Win7 64位系统上Hadoop单机模式的安装及开发环境搭建,Win7 64位系统上HBase单机模式的安装)多数情况下,对于MapReduce模型,其底层使用HDFS作为存储,在HDFS中,其NameNode节点保存的是文件的元数据,DataNode保存真正的文件数据,如果是大型数据文件,这没有任何问题,但如果对于大量的小文件,其不足也是很明显的,NameNode中因为大量的小文件的元数据,占用大量的内存空间,将使得HDFS性能受到很大影响,一个可行的方案是,将大量小文件保存到HBase中,本文及后续文章讨论的是以HBase作为存储,如何将小文件或大文件导入到HBase中去,每个小文件将保存在独立的cell中,而对于大文件,将先上传到HDFS中,然后再使用MapReduce方法,将文件内容读入到HBase中。

场景描述:

对于小文件,我这里假设不足10M,这样我们就不需要对文件split并保存到不同的cell中,在HBase中,每一个行与列的交汇处,称为一个cell,其默认上限是10M,当然这个是可以通过配置文件调整的,调整的配置项是 “hbase.client.keyvalue.maxsize”,其默认值是10485760。对于文件源,可以是本地的文件,本测试用例中使用的是本地的email文件,大小才15k左右,我们将创建一个本地Java工程,读取本地文件后,再通过API保存到HBase中。另外一个可能的场景是,将本地程序变换为一个RESTful API,外部系统远程调用这个RESTful API,将数据存到HBase中,通过这个API,可以串起2个独立的系统。

项目步骤:

1:在IDEA中创建一个Java Maven工程

6422f8a3fb2402ff92af2ca8baf52ba7.png

2: 修改pom.xml,引入hbase 1.2.6,因为要使用API操作HBase

4.0.0

ImportFile

ImportFile

1.0-SNAPSHOT

apache

http://maven.apache.org

org.apache.hbase

hbase-client

1.2.6

org.apache.maven.plugi

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值