HBase与MapReduce操作-HBase读出到HDFS笔记

HBase与MapReduce操作-HBase读出到HDFS笔记:

直接上代码:笔记都在代码注释里了
驱动类:Hbase_Hdfs_Driver
package com.zk.mr_hbase_hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class Hbase_Hdfs_Driver extends Configured implements Tool {
    public static void main(String[] args) {
        try {
            int run = ToolRunner.run(new Hbase_Hdfs_Driver(), args);
            System.exit(run);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public int run(String[] arg0) throws Exception {

        Configuration conf = HBaseConfiguration.create();
        conf.set("fs.defaultFS", "hdfs://ducking:9000/");
        conf.set("hbase.zookeeper.quorum", "ducking:2181,admin:2181,xmh:2181");
        System.setProperty("HADOOP_USER_NAME", "root"); //windows用户设置为Hadoop的root用户
        FileSystem fs = FileSystem.get(conf);

        Job job = Job.getInstance(conf);

        //设置主驱动类
        job.setJarByClass(Hbase_Hdfs_Driver.class);

        //在scan内设置扫描条件
        Scan scan = new Scan();
        scan.setCaching(50); //设置缓存行数:较高的缓存值将启用更快的扫描程序,但将使用更多的内存。

        //设置Mapper,注意导入的是mapreduce包下的,不是mapred包下的,后者是老版本
        TableMapReduceUtil.initTableMapperJob(
                "users".getBytes(), // 指定表名
                scan, // 指定扫描数据的条件
                Hbase_Hdfs_Mapper.class, // 指定mapper class
                Text.class,     // outputKeyClass mapper阶段的输出的key的类型
                Text.class, // outputValueClass mapper阶段的输出的value的类型
                job// job对象
        );

        //设置Reduce数量,设为零节约资源
        job.setNumReduceTasks(0);

        Path outputPath = new Path("hdfs://ducking:9000/hdfs_hbase/output");

        //判断输出路径是否存在 存在则删除
        if(fs.exists(outputPath)) {
            fs.delete(outputPath,true);
        }

        FileOutputFormat.setOutputPath(job, outputPath);

        boolean isDone = job.waitForCompletion(true);
        if(!isDone){
            throw new IOException("Job running with error");
        }
        return isDone ? 0 : 1;
    }
}
Mapper类:Hbase_Hdfs_Mapper
package com.zk.mr_hbase_hdfs;

import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;

import java.io.IOException;

public class Hbase_Hdfs_Mapper extends TableMapper<Text, Text> {
    private Text k = new Text();
    private Text v = new Text();
    private StringBuffer sb = new StringBuffer();

    //ImmutableBytesWritable key 从hbase中读取的key是 行键RowKey
    //Result value  一个key对应多个cell 封装在value里
    @Override
    protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {

        //1、先处理key也就是把rowkey搞出来
        //需要对key做处理
        String[] s = key.toString().split(" ");
        String k1 = "";
        for (String s1 : s) {
            k1 += s1.substring(1);
        }
        k.set(k1);

        //2、把value里的cell值拼接起来 放入v里面

        sb.setLength(0);//清空sb

        Cell[] cells = value.rawCells();//取出未更改过的cells

        for (Cell cell : cells) {
            String s1 = Bytes.toString(CellUtil.cloneValue(cell));//将cell里的值value克隆出来,并转换为string
            sb.append(s1).append(",");//逐个把cell里的值放入sb里,并用","隔开
        }
        //放入v里面
        v.set(sb.toString());

        //输出 因为这里不做数据计算 直接写入hdfs里
        context.write(k,v);
    }
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

总要冲动一次

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值