首先在MR程序中,传值(通讯)分为Driver ->map/reduce , Map->Reduce两种,其实都是通过Configuration来进行的。
1.前者Driver ->map/reduce 主要 通过Configuration 来进行传值,包括设置Map,Reduce的输入输出类型,找到匹配的Map,Reduce类等等。主要代码如下
在Driver中配置参数,将输入的beginDate传入Map中,或者通过Job来设置Map,Reduce.都是通过Configuration。
LocalDate beginDate = JobUsage.getBeginDate(args);
LocalDate endDate = JobUsage.getEndDate(args);
System.out.println("按天统计" + pointDay.toString());
Configuration conf = new Configuration();
conf.set("pointDay", pointDay.toString()); // 设置打点时间
conf.set("mapred.min.split.size", blockSize + "");
// conf.set("mapred.job.queue.name", "query_queue");
Job job = Job.getInstance(conf, "FaillOrderReasonAnalyzeDrive" + pointDay.toString());
在Map中接收beginDate 也是通过Configuration
Configuration conf = context.getConfiguration();
pointDay = LocalDate.parse(conf.get("pointDay"));
pointTime = Timestamp.valueOf(pointDay.atStartOfDay());
2.后者Map->Reduce其实是通过Job设置的输入输出类型,通过context.write(outKey,outValue)方法来进行聚合传输到Reduce中,本质上还是依靠Driver中的Job来设置的,而Job也是通过Configuration来进行初始化的。
在开发过程中,我被要求一方面读取HDFS文件,然后HDFS里面没有的要去redis里面匹配一下有没有。
在这个过程中由于配置文件配置了postgre数据库的内容,和redis的另一个库的内容,不方便修改。我就在drive中手动加入了配置内容(连接IP,账号密码、连接池大小等等)但是由于conf.set()方法给的是两个String类型的参数,初始化连接池返回的是一个redis对象。所以一直无法成功,这个时候只能在Map段手动配置连接方式。这个过程让我对MR程序的传值细节理解更为透彻。