HBase批量数据导入与导出实例

一、1、MapReduce与HBase集成条件:

(1)在master上修改~/hadoop/etc/hadoop/hadoop-env.sh

export HADOOP_CLASSPATH=/usr/local/hbase/lib/*

(2)将hbase-site.xml复制到$HADOOP_HOME/etc/hadoop/下:

cp /usr/local/hbase/conf/hbase-site.xml /usr/local/hadoop/etc/hadoop/

(3)将Hbase下面相关的jar文件拷贝到Hadoop对应的目录下面(前面两个jar文件是必须复制,后面自行尝试是否必须复制):

cp /usr/local/hbase/lib/hbase-server-2.1.6.jar /usr/local/hadoop/lib/

cp /usr/local/hbase/lib/hbase-server-2.1.6-tests.jar /usr/local/hadoop/lib/

cp /usr/local/hbase/lib/zookeeper-3.4.10.jar /usr/local/hadoop/lib/

cp /usr/local/hbase/lib/guava-11.0.2.jar /usr/local/hadoop/lib/

cp /usr/local/hbase/lib/protobuf-java-2.5.0.jar /usr/local/hadoop/lib/

2、启动start-all.sh

zkServer.sh start(所有节点启动)

start-hbase.sh

3、hbase shell:create 'music','info'

4、hadoop fs -mkdir /user/hduser/music1

5、hadoop fs -put music1.txt music2.txt music3.txt /user/hduser/music1

6、hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=tmp -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:singer,info:gender,info:ryghme,info:terminal music /user/hduser/music1

7、hbase shell中查看表数据:scan 'music'

二、Hbase批量csv数据导入

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' -Dimporttsv.columns=HBASE_ROW_KEY,info:dteday,info:season,info:yr,info:mnth,info:hr,info:holiday,info:weekday,info:workingday,info:weathersit,info:temp,info:atemp,info:hum,info:windspeed,info:casual,info:registered,info:label hour1 /user/hduser/hour

参数Dimporttsv.separator为定义分隔符为',' ,Dimporttsv.columns则是定义对应的列名

三、数据导出

hbase org.apache.hadoop.hbase.mapreduce.Export student /user/hduser/stu

1表深度拷贝,用copyTable相当于可以实现对原表的拷贝

create 'studentCopy','score'

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=studentCopy student

2集群间拷贝:在集群之间以表维度同步一个表数据

集群1创建表:create 'test_table','f‘

初始化测试数据

put 'test_table','1','f:q1','test1'

put 'test_table','2','f:q1','test2'

在集群2创建表:create 'test_table_copy','f‘

跨集群复制表,从集群1复制到集群2。在主集群下运行:

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=master,slave1,slave2:2181:/hbase --new.name=test_table_copy test_table

集群2查看表:scan ‘test_table_copy’

集群1:hbase org.apache.hadoop.hbase.mapreduce.Export studentCopy  hdfs://192.168.90.224:9000/user/hduser/testcopy

集群2:create ‘testcopy’,’stuinfo’

集群2:hbase org.apache.hadoop.hbase.mapreduce.Import testcopy  /user/hduser/testcopy

3增量备份:增量备份表数据,参数中支持timeRange,指定要备份的时间范围,使用方式如下:

create 'studentCopy','Grades',{NAME=>'StuInfo',VERSIONS=>5}

hbase org.apache.hadoop.hbase.mapreduce.CopyTable ... --starttime=start_timestamp --endtime=end_timestamp --new.name=test_table_copy test_table

例子:

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --starttime=2 --endtime=5 --new.name=studentCopy StudentInfo   //复制符合条件的最新版本数据

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --starttime=2 --endtime=5 --versions=3 --new.name=studentCopy StudentInfo   //复制多版本数据

4部分表备份:只备份其中某几个列族数据,比如一个表有很多列族,但只备份其中几个列族数据,CopyTable提供了families参数,同时还提供了copy列族到新列族形式。

hbase org.apache.hadoop.hbase.mapreduce.CopyTable ... --families=srcCf1,srcCf2 #copy cf1,cf2两个列族,不改变列族名字

hbase org.apache.hadoop.hbase.mapreduce.CopyTable ... --families=srcCf1:dstCf1, srcCf2:dstCf2 #copy srcCf1到目标dstCf1新列族

例子:hbase org.apache.hadoop.hbase.mapreduce.CopyTable --families=StuInfo --new.name=studentCopy StudentInfo

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值