Mapreduce之多目录输入+Inner Join

最新推荐文章于 2022-07-12 10:38:16 发布

爱吃芝麻

最新推荐文章于 2022-07-12 10:38:16 发布

阅读量167

点赞数

本文链接：https://blog.csdn.net/weixin_43006131/article/details/103103400

版权

我们完成的innerjoin实例中因为两个文件的列数不一致导致我们在map操作中必须要加入业务逻辑判断才能完成正确数据输出;

那么这样的话有没有什么优化手段呢? 有! 可以使用多目录输入;

package com.hnxy.mr.Multiple;

import java.io.IOException;
import java.util.LinkedList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import com.hnxy.mr.e

最低0.47元/天解锁文章

爱吃芝麻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce之多目录输入+Inner Join

我们完成的innerjoin实例中因为两个文件的列数不一致导致我们在map操作中必须要加入业务逻辑判断才能完成正确数据输出;那么这样的话有没有什么优化手段呢? 有! 可以使用多目录输入;package com.hnxy.mr.Multiple;import java.io.IOException;import java.util.LinkedList;import java.ut...
复制链接

扫一扫