MapReduce实现join

最新推荐文章于 2023-08-29 14:45:29 发布

VIP文章静卧人间

最新推荐文章于 2023-08-29 14:45:29 发布

阅读量573

点赞数 1

本文链接：https://blog.csdn.net/xieyu474/article/details/53412406

版权

在我们平常的大数据项目开发和项目需求中，可能需要我们完成在关系型数据库中十分常见的join类功能。那么针对这种类型的功能需求，用hadoop中的MapReduce模型应该要怎么实现呢？本篇文章将针对这种功能需求提供几种实现选择。

首先，我的开发环境为：jdk1.7，hadoop2.6.4，CentOS7

1. 利用DistributedCache实现Join

DistributedCache：这是Hadoop自带的一个缓存文件功能，通过这个功能Hadoop可以将用户指定的整个文件拷贝分发到Job所运行的所有节点上，在各个节点上可以通过特定的接口访问读取这个缓存的文件。

在Hadoop中，join功能的实现可以发生在map端，也可以在reduce端实现，下面将分在map端和reduce端实现join来讲解如何通过DistributedCache来实现Join。

1.1 实现map端join

场景：我们以部门、员工场景为例，部门和员工信息分别存放在不同的两个文件中，文件格式分别如下：

员工文件内容如下：
员工号员工生日 firstname lastname 性别入职日期所属部门号
10001 1953-09-02 Georgi Facello M 1986-06-26 d005
10002 1964-06-02 Bezalel Simmel F 1985-11-21 d007
10003 1959-12-03 Parto Bamford M 1986-08-28 d004
10004 1954-05-01 Chirstian Koblick M 1986-12-01 d004
10005 1955-01-21 Kyoichi Maliniak M 1989-09-12 d003
10006 1953-04-20 Anneke Preusig F 1989-06-02 d005
10009 1952-04-19 Sumant Peac F 1985-02-18 d006

部门文件内容如下：
部门号部门名称
d001 Marketing
d002 Finance
d003 Human Resources
d004 Production
d005 Development
d006 Quality Management
d007 Sales
d008 Research
d009 Customer Service

需要完成的功能：输出员工信息以及其所在部门的部门名称。

分析：现在我们有两个文件需要输入到MapReduce中，去进行Join操作，并且不打算用多个Mapper实现类来分别处理这两个文本文件，那么在这种情况下，我们就可以使用DistributedCache这个功能，那么我们应该将哪个文件缓存呢？小的那个，因为DistributedCache是将要整个文件拷贝复制到各个节点上的，太大占用的内存空间和网络传输的时间都将增大，所以建议将比较小的文件作为DistributedCache缓存文件。我这里是做测试，用到的文件都是很小的文件，我这里指定部门文件作为缓存文件。(如果要进行join的文件都很大，那么不建议使用DistributedCache功能实现join，可以选择实现多个Mapper类来完成这个功能，这个下面将会讲到)。那就具体的代码实现以及注意的地方有哪些呢？下面将在代码中指出。

Driver.java-mapreduce主程序类

package com.shell.join.mapsidejoin;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import com.shell.count.WordCount;

public class Driver extends Configured implements Tool {
   

    @Override
    public int run(String[] args) throws Exception {
        // 输入3个参数,分别指定:输入文件,输出文件目录,以及要缓存的文件
        if (args.length != 3) {
            System.err.printf("Usage: %s [generic options] <input> <output> <cachefile>\n", WordCount.class.getSimpleName());
            ToolRunner.printGenericCommandUsage(System.err);
            System.exit(-1);
        }

        Job job = Job.getInstance();
        job.setJarByClass(getClass());
        job.setJobName("MapperSideJoin");

        job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));

        job.setMapperClass(MapperSideJoinDCacheTextFile.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        // 这里reduce的任务数设置为0, 表示map任务完成之后,不再进行reduce将直接结束job
        // 根据具体的业务设置reduce任务数
        job.setNumReduceTasks(0);

        job.setOutputFormatClass(TextOutputFormat.class);
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 上面的配置跟一般的Job配置一样的,没啥区别
        // 这里是关键,这里指定了要DistributedCache缓存的文件的位置(注意这个文件默认是hdfs协议访问,
        // 所以建议放置在HDFS中),设置好这个文件之后,在mapper或者reduce端就可以通过特定接口来访问
        job.addCacheFile(new Path(args[2]).toUri());

        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        System.exit(ToolRunner.run(new Driver(), args));
    }

}

MapperSileJoinDCacheTextFile.java-mapper实现类

package com.shell.join.mapsidejoin;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Arrays;
import java.util.HashMap;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;

public class MapperSideJoinDCacheTextFile extends Mapper<LongWritable, Text, Text, Text> {
   
    private HashMap<String, String> departmentMap = new HashMap<>();
    // MapReduce中的Counter,这些设置的Counter根据使用情况将在任务执行完之后
    // 在控制台中打印出来
    // 根据需要配置
    private enum MYCOUNTER {
        RECORD_COUNT,
        FILE_EXISTS,
        FILE_NOT_FOUND,
        SOME_OTHER_ERROR
    }

    @Override
    protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
            throws IOException, InterruptedException {
        // 通过Job提供的接口方法,得到所有DistributedCache文件在本地节点的存放路径
        // 从这一点也可以知道DistributedCache文件时放置在磁盘中,而不是内存里面的
        // 根据这个路径,就可以以本地文件访问的方式读取这个DistributedCache的文件
        Path[] cacheFiles = Job.getInstance(context.getConfiguration()).getLocalCacheFiles();
        for (Path cacheFile : cacheFiles) {
            System.out.println(cacheFile.toString());
            // 针对需要的缓存文件进行处理
            if (cacheFile.getName().toString().trim().equals("departments.txt")) {
                context.getCounter(MYCOUNTER.FILE_EXISTS).increment(1); // Counter的运用
                load

最低0.47元/天解锁文章

静卧人间

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce实现join

在我们平常的大数据项目开发和项目需求中，可能需要我们完成在关系型数据库中十分常见的join类功能。那么针对这种类型的功能需求，用hadoop中的MapReduce模型应该要怎么实现呢？本篇文章将针对这种功能需求提供几种实现选择。首先，我的开发环境为：jdk1.7，hadoop2.6.4，CentOS71. 利用DistributedCache实现JoinDistributedCache：这是Hado
复制链接

扫一扫