mapreduce如何使用本地文件

最新推荐文章于 2023-12-28 16:57:21 发布

frank_fengsen

最新推荐文章于 2023-12-28 16:57:21 发布

阅读量4.5k

点赞数 1

文章标签： mapreduce 本地文件 DistributedCache

本文链接：https://blog.csdn.net/frankfengsen/article/details/9492885

版权

本文介绍了在MapReduce程序中如何处理本地文件的读取问题。当在分布式环境中运行MapReduce作业时，直接读取本地文件会导致错误。文章通过一个示例展示了如何利用DistributedCache来缓存文件，并在mapper中获取这些文件，从而确保程序在分布式集群上也能正确运行。

摘要由CSDN通过智能技术生成

对于java来说，读取本地文件再正常不过。但是对于mapreduce程序来说，读取本地文件常常会陷入误区。本地明明有这个文件，在本地运行jar包，mapreduce为什么读不到？因为我们知道，mapreduce程序本来就不是在本地执行的，程序会分布式的在各个机器上执行，你当然读不到文件，那所谓的“本地文件”就不叫“本地文件”，当然只有一个例外：你的hadoop集群是伪集群。

比如下面的示例：

package test;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.util.Iterator;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;