通过mapreduce操作Hbase

原创 2015年11月19日 17:04:18
package man.ludq.hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;

public class ExampleTotalMapReduce{
	public static void main(String[] args) {
		try{
			Configuration config = HBaseConfiguration.create();
			Job job = new Job(config,"ExampleSummary");
			job.setJarByClass(ExampleTotalMapReduce.class);     // class that contains mapper and reducer

			Scan scan = new Scan();
			scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
			scan.setCacheBlocks(false);  // don't set to true for MR jobs
			// set other scan attrs
			//scan.addColumn(family, qualifier);
			TableMapReduceUtil.initTableMapperJob(
					"access-log",        // input table
					scan,               // Scan instance to control CF and attribute selection
					MyMapper.class,     // mapper class
					Text.class,         // mapper output key
					IntWritable.class,  // mapper output value
					job);
			TableMapReduceUtil.initTableReducerJob(
					"total-access",        // output table
					MyTableReducer.class,    // reducer class
					job);
			job.setNumReduceTasks(1);   // at least one, adjust as required

			boolean b = job.waitForCompletion(true);
			if (!b) {
				throw new IOException("error with job!");
			} 
		} catch(Exception e){
			e.printStackTrace();
		}
	}

	public static class MyMapper extends TableMapper<Text, IntWritable>  {

		private final IntWritable ONE = new IntWritable(1);
		private Text text = new Text();

		public void map(ImmutableBytesWritable row, Result value, Context context) throws IOException, InterruptedException {
			String ip = Bytes.toString(row.get()).split("-")[0];
			String url = new String(value.getValue(Bytes.toBytes("info"), Bytes.toBytes("url")));
			text.set(ip+"&"+url);
			context.write(text, ONE);
		}
	}

	public static class MyTableReducer extends TableReducer<Text, IntWritable, ImmutableBytesWritable>  {
		public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}

			Put put = new Put(key.getBytes());
			put.add(Bytes.toBytes("info"), Bytes.toBytes("count"), Bytes.toBytes(String.valueOf(sum)));

			context.write(null, put);
		}
	}
}

将上面代码打包后 放在hadoop上通过执行前需要导入Hbase的包:

将hbase/lib下的部分包拷贝到hadoop 节点上,比如 /usr/local/hbaselib,因为我用的是hbase-0.98.14,为了避免和hadoop的包重复,我导入以下jar:

hbase-*.jar
high-scale-lib-1.1.1.jar
htrace-core-2.04.jar
metrics-core-2.2.0.jar

然后在 hadooop/etc/hadoop/hadoop-env.sh中 增加如下:

for f in /usr/local/hbaselib/*.jar; do
  if [ "$HADOOP_CLASSPATH" ]; then
    export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f
  else
    export HADOOP_CLASSPATH=$f
  fi
done

然后在hadoop上跑mapreduce运行成功。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

MapReduce操作HBase

这两天看了一下HBase的基本操作,然后又重温了下Hadoop的MapReduce的基本操作(虽然之前看的也是一般般,理解不是很深)。本来打算昨晚完成两件事情的:1、使用map任务读出HDFS 上的文...

【Hadoop】使用MapReduce操作HBase

本文是使用WordCount作为基础例子实现MapReduce与HBase的配合使用

mapreduce操作hbase ClassNotFoundException

mapreduce操作hbase时 java.lang.ClassNotFoundException 问题
  • bcsix
  • bcsix
  • 2016年11月09日 15:04
  • 98

用mapreduce来操作hbase的两点优化

用mapreduce来操作hbase的两点优化 用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作,提升性能。它们分别是: (1)scan.setCacheBl...

MapReduce 操作 hbase

hbase mapreduce

MapReduce中实现对HBase中表的操作一

1. 上传数据到hdfs中 2. 写Map\Reduce过程 3. 输出结果到hbase中 Tips: 1. 因为map是从hdfs中取数据,因此没有太大变化;而reduce需要输出结果到hbase中...
  • yeruby
  • yeruby
  • 2014年02月26日 19:30
  • 11216

mapreduce操作hbase

mapreduce操作hbase

MapReduce操作Hbase史上最完整范例

Hbase里的数据量一般都小不了,因此MapReduce跟Hbase就成了天然的好搭档。本文中,本博主将给出最详细的用MR读取Hbase中数据的实例。1.ZK授权表首先一点来说,Hbase是强依赖于Z...

如何用MapReduce程序操作hbase

先看一个标准的hbase作为数据读取源和输出目标的样例:Configuration conf = HBaseConfiguration.create(); Job job = new Job(conf...

eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)

开源 hbase的example/mapreduce里有个类IndexBuilder是用来对已有表建索引的。其代码有一点点需要修改 conf.set(TableInputFormat.SCAN, T...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:通过mapreduce操作Hbase
举报原因:
原因补充:

(最多只允许输入30个字)