使用HBase中自带的MapReduce操作HBase中的表；将tsv/csv数据导入HBase中的两种方式；HBase使用总结

最新推荐文章于 2023-04-16 03:45:52 发布

无名一小卒

最新推荐文章于 2023-04-16 03:45:52 发布

阅读量589

点赞数 2

文章标签： HBase中的MapReduce

本文链接：https://blog.csdn.net/h1025372645/article/details/97957207

版权

HBase 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

HBase中导入数据方式

创建表以后，我们需要向表中批量的插入数据
-1.可以调用Java API
Put(单条，多条)
-2.使用Mapreduce
（1）SQOOP工具，将RDBMS中的数据导入
（2）使用自带MapReduce程序
（3）自己编写MapReduce

使用Sqoop可以将关系型数据库中的数据导入HBase中
如果想要导入tsv/csv文件类型的数据
HBase提供了一些类，可以操作HBase中的数据
并将数据文件导入HBase中

向HBase表中插入数据过程（正常情况下）

	（1）数据写入WAL（预写日志）
	（2）写入MemStore
	（3）spill为Hfile文件存储HDFS

不正常情况

	直接将数据写入到Hfile文件中

使用HBase自带的MapReduce

下面是HBase中支持的MapReduce的程序

An example program must be given as the first argument.
Valid program names are:
  CellCounter: Count cells in HBase table.
  WALPlayer: Replay WAL files.
  completebulkload: Complete a bulk data load.
  copytable: Export a table from local cluster to peer cluster.
  export: Write table data to HDFS.
  exportsnapshot: Export the specific snapshot to a given FileSystem.
  import: Import data written by Export.
  importtsv: Import data in TSV format.
  rowcounter: Count rows in HBase table.
  verifyrep: Compare the data from tables in two different clusters. WARNING: It doesn't work for incrementColumnValues'd cells since the timestamp is changed after being appended to the log.

rowcounter：统计表中有多少条数据

HADOOP_HOME=/opt/cdh5.7.6/hadoop-2.6.0-cdh5.7.6
HBASE_HOME=/opt/cdh5.7.6/hbase-1.2.0-cdh5.7.6
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf  \
${HADOOP_HOME}/bin/yarn jar  \
${HBASE_HOME}/lib/hbase-server-1.2.0-cdh5.7.6.jar  \
rowcounter  \
表名

importtsv：将scv、tsv数据导入HBase中

HADOOP_HOME=/opt/cdh5.7.6/hadoop-2.6.0-cdh5.7.6
HBASE_HOME=/opt/cdh5.7.6/hbase-1.2.0-cdh5.7.6
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf  \
${HADOOP_HOME}/bin/yarn jar  \
${HBASE_HOME}/lib/hbase-server-1.2.0-cdh5.7.6.jar  \
importtsv \
-Dimporttsv.columns=列簇:字段,...,HBASE_ROW_KEY \  # HBASE_ROW_KEY 指定rowkey
-Dimporttsv.separator=, \   #分割方式
orders:history_orders \
/sale_orders.csv

直接将文件写入HFile中，而不经过MemStore

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf  \
${HADOOP_HOME}/bin/yarn jar  \
${HBASE_HOME}/lib/hbase-server-1.2.0-cdh5.7.6.jar  \
importtsv \
-Dimporttsv.columns=order:date,order:orderId,order:userId,order:orderAmt,HBASE_ROW_KEY \
-Dimporttsv.separator=, \
#HFile文件的存放目录
-Dimporttsv.bulk.output=/datas/hfile-output \
#如果有多个Task在运行，其中一个还有完成，推测可能是因为资源的原因
#在其他机器上也启动该任务，2个机器同时运行这个任务，谁先完成，用谁的结果
-Dmapreduce.map.speculative=false \
-Dmapreduce.reduce.speculative=false \
orders:history_orders1 \
/sale_orders.csv

加载数据：completebulkload: Complete a bulk data load. 将HFile文件加载到HBASE表中

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf  \
${HADOOP_HOME}/bin/yarn jar  \
${HBASE_HOME}/lib/hbase-server-1.2.0-cdh5.7.6.jar  \
completebulkload \
/datas/hfile-output  orders:history_orders1

HBase使用总结

假设决定是HBasa存储海量的数据，现有10TB的问价拿数据，需要加载到HBase表中，方案如下：
（1）设计表（合理）
	rowkey的设计（3原则：唯一性、前缀匹配、热点性）
（2）创建表
	预分区（分区）、压缩
（3）采用MapReduce程序
	将文件文件数据转换HFile文件，采用Bulk load方式加载HFile到表中