MapReduce实现join

在我们平常的大数据项目开发和项目需求中,可能需要我们完成在关系型数据库中十分常见的join类功能。那么针对这种类型的功能需求,用hadoop中的MapReduce模型应该要怎么实现呢?本篇文章将针对这种功能需求提供几种实现选择。

首先,我的开发环境为:jdk1.7hadoop2.6.4CentOS7

1. 利用DistributedCache实现Join

DistributedCache:这是Hadoop自带的一个缓存文件功能,通过这个功能Hadoop可以将用户指定的整个文件拷贝分发到Job所运行的所有节点上,在各个节点上可以通过特定的接口访问读取这个缓存的文件。

在Hadoop中,join功能的实现可以发生在map端,也可以在reduce端实现,下面将分在map端和reduce端实现join来讲解如何通过DistributedCache来实现Join。

1.1 实现map端join

场景:我们以部门、员工场景为例,部门和员工信息分别存放在不同的两个文件中,文件格式分别如下:

员工文件内容如下:
员工号 员工生日 firstname lastname 性别 入职日期 所属部门号
10001 1953-09-02 Georgi Facello M 1986-06-26 d005
10002 1964-06-02 Bezalel Simmel F 1985-11-21 d007
10003 1959-12-03 Parto Bamford M 1986-08-28 d004
10004 1954-05-01 Chirstian Koblick M 1986-12-01 d004
10005 1955-01-21 Kyoichi Maliniak M 1989-09-12 d003
10006 1953-04-20 Anneke Preusig F 1989-06-02 d005
10009 1952-04-19 Sumant Peac F 1985-02-18 d006

部门文件内容如下:
部门号 部门名称
d001 Marketing
d002 Finance
d003 Human Resources
d004 Production
d005 Development
d006 Quality Management
d007 Sales
d008 Research
d009 Customer Service

需要完成的功能:输出员工信息以及其所在部门的部门名称。

分析:现在我们有两个文件需要输入到MapReduce中,去进行Join操作,并且不打算用多个Mapper实现类来分别处理这两个文本文件,那么在这种情况下,我们就可以使用DistributedCache这个功能,那么我们应该将哪个文件缓存呢?小的那个,因为DistributedCache是将要整个文件拷贝复制到各个节点上的,太大占用的内存空间和网络传输的时间都将增大,所以建议将比较小的文件作为DistributedCache缓存文件。我这里是做测试,用到的文件都是很小的文件,我这里指定部门文件作为缓存文件。(如果要进行join的文件都很大,那么不建议使用DistributedCache功能实现join,可以选择实现多个Mapper类来完成这个功能,这个下面将会讲到)。那就具体的代码实现以及注意的地方有哪些呢?下面将在代码中指出。

Driver.java-mapreduce主程序类

package com.shell.join.mapsidejoin;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import com.shell.count.WordCount;

public class Driver extends Configured implements Tool {
   

    @Override
    public int run(String[] args) throws Exception {
        // 输入3个参数,分别指定:输入文件,输出文件目录,以及要缓存的文件
        if (args.length != 3) {
            System.err.printf("Usage: %s [generic options] <input> <output> <cachefile>\n", WordCount.class.getSimpleName());
            ToolRunner.printGenericCommandUsage(System.err);
            System.exit(-1);
        }

        Job job = Job.getInstance();
        job.setJarByClass(getClass());
        job.setJobName("MapperSideJoin");

        job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));

        job.setMapperClass(MapperSideJoinDCacheTextFile.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        // 这里reduce的任务数设置为0, 表示map任务完成之后,不再进行reduce将直接结束job
        // 根据具体的业务设置reduce任务数
        job.setNumReduceTasks(0);

        job.setOutputFormatClass(TextOutputFormat.class);
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 上面的配置跟一般的Job配置一样的,没啥区别
        // 这里是关键,这里指定了要DistributedCache缓存的文件的位置(注意这个文件默认是hdfs协议访问,
        // 所以建议放置在HDFS中),设置好这个文件之后,在mapper或者reduce端就可以通过特定接口来访问
        job.addCacheFile(new Path(args[2]).toUri());

        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        System.exit(ToolRunner.run(new Driver(), args));
    }

}

MapperSileJoinDCacheTextFile.java-mapper实现类

package com.shell.join.mapsidejoin;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Arrays;
import java.util.HashMap;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;

public class MapperSideJoinDCacheTextFile extends Mapper<LongWritable, Text, Text, Text> {
   
    private HashMap<String, String> departmentMap = new HashMap<>();
    // MapReduce中的Counter,这些设置的Counter根据使用情况将在任务执行完之后
    // 在控制台中打印出来
    // 根据需要配置
    private enum MYCOUNTER {
        RECORD_COUNT,
        FILE_EXISTS,
        FILE_NOT_FOUND,
        SOME_OTHER_ERROR
    }

    @Override
    protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
            throws IOException, InterruptedException {
        // 通过Job提供的接口方法,得到所有DistributedCache文件在本地节点的存放路径
        // 从这一点也可以知道DistributedCache文件时放置在磁盘中,而不是内存里面的
        // 根据这个路径,就可以以本地文件访问的方式读取这个DistributedCache的文件
        Path[] cacheFiles = Job.getInstance(context.getConfiguration()).getLocalCacheFiles();
        for (Path cacheFile : cacheFiles) {
            System.out.println(cacheFile.toString());
            // 针对需要的缓存文件进行处理
            if (cacheFile.getName().toString().trim().equals("departments.txt")) {
                context.getCounter(MYCOUNTER.FILE_EXISTS).increment(1); // Counter的运用
                load
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值