Hadoop与HBase的一些特殊操作命令
1.将hbase数据库中的表导出到hdfs中的命令:
Hbase org.apache.hadoop.hbase.mapreduce.Export <tablename> <output dir> [<versions> [<starttime> [<endtime>]]]
2.加载导出的数据回到HBase的命令:
Hbase org.apache.hadoop.hbase.mapreduce.Import <tablename> <inputdir>
注意:导入时表必须存在,导出的路径可以使本地系统也可以是hdfs,如果导出到本地系统,建议使用:file:///
3.completebulkload 实用工具可以将产生的存储文件移动到HBase表。该工具经常和Section “ImportTsv” 的输出联合使用。
两种方法调用该工具,带显式类名或通过驱动:
$ bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles <hdfs://storefileoutput> <tablename>
.. 通过驱动..
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/hbase-VERSION.jar completebulkload <hdfs://storefileoutput> <tablename>
4.RowCounter 实时工具可以统计表的行数。可以用来确认HBase可以读取表的所有分块
Hbase org.apache.hadoop.hbase.mapreduce.RowCounter <tablename> [<column1> <column2> . . . ]
5.合并
Hbase org.apache.hbase.util.Merge <tablename> <region1> <region2>
Note:Merge must run be done when the cluster is down
6.节点下线
Hbase-daemon.sh stop regionserver
在下线节点前要停止Load Balancer
要下线一台RegionServer可以这样做,当执行graceful_stop脚本的时候,要将Region Load Balancer关掉(否则balancer和下线脚本会在region部署的问题上存在冲突)
graceful_stop.sh HOSTNAME
7.关闭和开启load balancer
Hbase> balance_switch false //关闭
Hbase> balance_switch true //开启
8.依次重启
你还可以让这个脚本重启一个RegionServer,不改变上面的Region的位置。要想保留数据的位置,你可以依次重启(Rolling Restart),就像这样:
$ for i in `cat conf/regionservers|sort`; do ./bin/graceful_stop.sh --restart --reload --debug $i; done &> /tmp/log.txt &
Tail /tmp/log.txt来看脚本的运行过程.上面的脚本只对RegionServer进行操作。要确认load balancer已经关掉。还需要在之前更新master。下面是一段依次重启的伪脚本,你可以借鉴它:
确认你的版本,保证配置已经rsync到整个集群中。如果版本是0.90.2,需要打上HBASE-3744 和 HBASE-3756两个补丁。
运行hbck确保你的集群是一致的
$ ./bin/hbase hbck
当发现不一致的时候,可以修复他。
重启Master:
$ ./bin/hbase-daemon.sh stop master; ./bin/hbase-daemon.sh start master
关闭region balancer:
$ echo "balance_switch false" | ./bin/hbase
在每个RegionServer上运行graceful_stop.sh:
$ for i in `cat conf/regionservers|sort`; do ./bin/graceful_stop.sh --restart --reload --debug $i; done &> /tmp/log.txt &
如果你在RegionServer还开起来thrift和rest server。还需要加上--thrift or --rest 选项 (参见 graceful_stop.sh 脚本的用法).
再次重启Master.这会把已经死亡的server列表清空,重新开启balancer.
运行 hbck 保证集群是一直的