在我们平常的大数据项目开发和项目需求中,可能需要我们完成在关系型数据库中十分常见的join类功能。那么针对这种类型的功能需求,用hadoop中的MapReduce模型应该要怎么实现呢?本篇文章将针对这种功能需求提供几种实现选择。
首先,我的开发环境为:jdk1.7,hadoop2.6.4,CentOS7
1. 利用DistributedCache实现Join
DistributedCache:这是Hadoop自带的一个缓存文件功能,通过这个功能Hadoop可以将用户指定的整个文件拷贝分发到Job所运行的所有节点上,在各个节点上可以通过特定的接口访问读取这个缓存的文件。
在Hadoop中,join功能的实现可以发生在map端,也可以在reduce端实现,下面将分在map端和reduce端实现join来讲解如何通过DistributedCache来实现Join。
1.1 实现map端join
场景:我们以部门、员工场景为例,部门和员工信息分别存放在不同的两个文件中,文件格式分别如下:
员工文件内容如下:
员工号 员工生日 firstname lastname 性别 入职日期 所属部门号
10001 1953-09-02 Georgi Facello M 1986-06-26 d005
10002 1964-06-02 Bezalel Simmel F 1985-11-21 d007
10003 1959-12-03 Parto Bamford M 1986-08-28 d004
10004 1954-05-01 Chirstian Koblick M 1986-12-01 d004
10005 1955-01-21 Kyoichi Maliniak M 1989-09-12 d003
10006 1953-04-20 Anneke Preusig F 1989-06-02 d005
10009 1952-04-19 Sumant Peac F 1985-02-18 d006
部门文件内容如下:
部门号 部门名称
d001 Marketing
d002 Finance
d003 Human Resources
d004 Production
d005 Development
d006 Quality Management
d007 Sales
d008 Research
d009 Customer Service
需要完成的功能:输出员工信息以及其所在部门的部门名称。
分析:现在我们有两个文件需要输入到MapReduce中,去进行Join操作,并且不打算用多个Mapper实现类来分别处理这两个文本文件,那么在这种情况下,我们就可以使用DistributedCache这个功能,那么我们应该将哪个文件缓存呢?小的那个,因为DistributedCache是将要整个文件拷贝复制到各个节点上的,太大占用的内存空间和网络传输的时间都将增大,所以建议将比较小的文件作为DistributedCache缓存文件。我这里是做测试,用到的文件都是很小的文件,我这里指定部门文件作为缓存文件。(如果要进行join的文件都很大,那么不建议使用DistributedCache功能实现join,可以选择实现多个Mapper类来完成这个功能,这个下面将会讲到)。那就具体的代码实现以及注意的地方有哪些呢?下面将在代码中指出。
Driver.java-mapreduce主程序类
package com.shell.join.mapsidejoin;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import com.shell.count.WordCount;
public class Driver extends Configured implements Tool {
@Override
public int run(String[] args) throws Exception {
// 输入3个参数,分别指定:输入文件,输出文件目录,以及要缓存的文件
if (args.length != 3) {
System.err.printf("Usage: %s [generic options] <input> <output> <cachefile>\n", WordCount.class.getSimpleName());
ToolRunner.printGenericCommandUsage(System.err);
System.exit(-1);
}
Job job = Job.getInstance();
job.setJarByClass(getClass());
job.setJobName("MapperSideJoin");
job.setInputFormatClass(TextInputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
job.setMapperClass(MapperSideJoinDCacheTextFile.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
// 这里reduce的任务数设置为0, 表示map任务完成之后,不再进行reduce将直接结束job
// 根据具体的业务设置reduce任务数
job.setNumReduceTasks(0);
job.setOutputFormatClass(TextOutputFormat.class);
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 上面的配置跟一般的Job配置一样的,没啥区别
// 这里是关键,这里指定了要DistributedCache缓存的文件的位置(注意这个文件默认是hdfs协议访问,
// 所以建议放置在HDFS中),设置好这个文件之后,在mapper或者reduce端就可以通过特定接口来访问
job.addCacheFile(new Path(args[2]).toUri());
return job.waitForCompletion(true) ? 0 : 1;
}
public static void main(String[] args) throws Exception {
System.exit(ToolRunner.run(new Driver(), args));
}
}
MapperSileJoinDCacheTextFile.java-mapper实现类
package com.shell.join.mapsidejoin;
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Arrays;
import java.util.HashMap;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
public class MapperSideJoinDCacheTextFile extends Mapper<LongWritable, Text, Text, Text> {
private HashMap<String, String> departmentMap = new HashMap<>();
// MapReduce中的Counter,这些设置的Counter根据使用情况将在任务执行完之后
// 在控制台中打印出来
// 根据需要配置
private enum MYCOUNTER {
RECORD_COUNT,
FILE_EXISTS,
FILE_NOT_FOUND,
SOME_OTHER_ERROR
}
@Override
protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
// 通过Job提供的接口方法,得到所有DistributedCache文件在本地节点的存放路径
// 从这一点也可以知道DistributedCache文件时放置在磁盘中,而不是内存里面的
// 根据这个路径,就可以以本地文件访问的方式读取这个DistributedCache的文件
Path[] cacheFiles = Job.getInstance(context.getConfiguration()).getLocalCacheFiles();
for (Path cacheFile : cacheFiles) {
System.out.println(cacheFile.toString());
// 针对需要的缓存文件进行处理
if (cacheFile.getName().toString().trim().equals("departments.txt")) {
context.getCounter(MYCOUNTER.FILE_EXISTS).increment(1); // Counter的运用
load