Hbase MR入门

最新推荐文章于 2022-04-15 16:03:30 发布

人蠢多读书

最新推荐文章于 2022-04-15 16:03:30 发布

阅读量503

点赞数

分类专栏：大数据运维之hbase日常文章标签： hbase MR编写

大数据运维之hbase日常专栏收录该内容

27 篇文章 6 订阅

订阅专栏

转载来自：http://www.aboutyun.com/thread-8671-1-1.html

问题导读
1.hbase作为数据读取源和输出源样例模板-包含那些过程？
2.通过下例你认为hdfs读入hbase有几种方式？
3.从hbase中的表作为数据源读取，hdfs作为数据输出，你认为的思路是什么？

1、先看一个标准的hbase作为数据读取源和输出源的样例：

Configuration conf = HBaseConfiguration.create();
Job job = new Job(conf, "job name ");
job.setJarByClass(test.class);
Scan scan = new Scan();
TableMapReduceUtil.initTableMapperJob(inputTable, scan, mapper.class,Writable.class, Writable.class, job);
TableMapReduceUtil.initTableReducerJob(outputTable, reducer.class, job);
job.waitForCompletion(true);

复制代码

首先创建配置信息和作业对象，设置作业的类。这些和正常的mapreduce一样，唯一不一样的就是数据源的说明部分，TableMapReduceUtil的initTableMapperJob和initTableReducerJob方法来实现。

用如上代码：
数据输入源是hbase的inputTable表，执行mapper.class进行map过程，输出的key/value类型是 ImmutableBytesWritable和Put类型，最后一个参数是作业对象。需要指出的是需要声明一个扫描读入对象scan，进行表扫描读取数据用，其中scan可以配置参数，这里为了例子简单不再详述。

数据输出目标是hbase的outputTable表，输出执行的reduce过程是reducer.class类，操作的作业目标是job。与map比缺少输出类型的标注，因为他们不是必要的，看过源代码就知道mapreduce的TableRecordWriter中write(key,value) 方法中，key值是没有用到的。value只能是Put或者Delete两种类型，write方法会自行判断并不用用户指明。

接下来就是mapper类：

public class mapper extends
TableMapper<KEYOUT, VALUEOUT> {
public void map(Writable key, Writable value, Context context)
throws IOException, InterruptedException {
//mapper逻辑
context.write(key, value);
}
}
}

复制代码

继承的是hbase中提供的TableMapper类，其实这个类也是继承的MapReduce类。后边跟的两个泛型参数指定类型是mapper输出的数据类型，该类型必须继承自Writable类，例如可能用到的put和delete就可以。需要注意的是要和initTableMapperJob 方法指定的数据类型一直。该过程会自动从指定hbase表内一行一行读取数据进行处理。

然后reducer类：

public class countUniteRedcuer extends
TableReducer<KEYIN, VALUEIN, KEYOUT> {
public void reduce(Text key, Iterable<VALUEIN> values, Context context)
throws IOException, InterruptedException {
//reducer逻辑
context.write(null, put or delete);
}
}

复制代码

reducer继承的是TableReducer类。后边指定三个泛型参数，前两个必须对应map过程的输出key/value类型，第三个必须是 put或者delete。write的时候可以把key写null，它是不必要的。这样reducer输出的数据会自动插入outputTable指定的表内。

2、有时候我们需要数据源是hdfs的文本，输出对象是hbase。这时候变化也很简单：

Configuration conf = HBaseConfiguration.create();
Job job = new Job(conf, "job name ");
job.setJarByClass(test.class);
job.setMapperClass(mapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class);
FileInputFormat.setInputPaths(job, path);
TableMapReduceUtil.initTableReducerJob(tableName,reducer.class, job);

复制代码

你会发现只需要像平常的mapreduce的作业声明过程一样，指定mapper的执行类和输出key/value类型，指定 FileInputFormat.setInputPaths的数据源路径，输出声明不变。便完成了从hdfs文本读取数据输出到hbase的命令声明过程。 mapper和reducer如下：