Hadoop分布式缓存(DistributedCache)

最新推荐文章于 2022-10-09 08:00:00 发布

tswisdom

最新推荐文章于 2022-10-09 08:00:00 发布

阅读量3.3k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

背景：在使用mapreduce时，各个map之间需要共享一些信息。如果信息不大，可以保存在conf中。但是需求是在各个map之间共享文件或者tar包

使用distributedCache可以满足这个需求：

distributedCache可以把HDFS上的文件（数据文件、压缩文件等等）分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地，直接用java的IO接口读取这些文件。

有两个需要注意的地方：被分发的文件需要事先存储在hdfs上；这些文件是只读的。

使用distributedCache的步骤：

1、在conf里正确配置被分发的文件的路径（hdfs上的路径）

2、在自定义的mapper或reducer中获取文件下载到本地后的路径（linux文件系统路径）；一般是重写configure或者重写setup（新方式）

3、在自定义的mapper或reducer类中读取这些文件的内容

distributedCache也提供创建符号链接的功能，第2步就不需要获取文件在本地的路径，直接使用约定的符号链接即可。

分发的文件大致分两种类型：文件；压缩包

1、配置被分发的hdfs文件所在路径

可以使用distributedCache类提供的静态接口设置路径，也可以使用conf.set配置

示例：

[Hadoop学习记录]在mapreduce任务中使用distributedCache

或者

conf.set("mapred.cache.files", "/myapp/file");

conf.set("mapred.cache. archives", "/mayapp/file.zip");

看distributedCache.java代码可知静态接口就是封装了conf.set的动作。

配置的位置在run函数里即可，比如：

2、在自己的mapper类中，使用distributedCache的接口获取文件下载到本地后的路径

这里查了些网上的使用示例，大部分例子在mapper类中重写configure接口（或者setup），将本地文件的路径保存在mapper类的成员变量中，供下面的map成员函数使用。

在myMapper类的configure中获取文件的路径：

getLocalCacheFiles返回的是数组（元素类型是Path），数组内容是这个task（map或reduce）所属的job设定的所有需要被分发的文件，这些文件被下载到本地节点后的路径。

所以用了localFiles[0]来取得我的文件的路径，因为只设置了一个文件。如果设置了多个文件，可以遍历Path数组，用String.contains("KeyWord")来判断是否是你所需要的文件。

这里我在configure接口中直接把文件内容读取到myMapper类的一个数组成员里，这样在map接口中就不需要再读，但是这样的前提是文件内容比较少，或者针对map程序有更好的数据结构，比如trie树之类的。否则容易OOM。比较原始的办法就是在map接口中读一行做一次判断或操作。

因为使用的是mapreduce二代框架，archive文件有多个（框架默认会加几个tar包和一些jar包），所以这里遍历了一下，取出了我需要的压缩包的路径。这个路径是解压好的。需要listFiles一下，获得解压包下面的文件路径。
3、读取文件内容

distributedCache在mapreduce自身用得也不少

比如task运行之前加载第三方的jar包到classpath 可以使用addFileToClassPath将配置加到conf中然后使用与读取压缩包类似方式将jar包加入到classpath

再如streaming和pipe

是将脚本分发到task节点本地，然后在java中执行这个本地的脚本来实现的

package h2.cux.examples.distributedcache;

import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.util.Scanner;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.log4j.pattern.LogEvent;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
* 测试hadoop的全局共享文件使用DistributedCached
*
*
***/
public class CacheDemo2 {

private static Logger logger = LoggerFactory.getLogger(CacheDemo2.class);

private static class FileMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

Path path[] = null;

/**
* Map函数前调用
*
*/
@Override
protected void setup(Context context) throws IOException, InterruptedException {
logger.info("开始启动setup了哈哈哈哈");
// System.out.println("运行了.........");
Configuration conf = context.getConfiguration();
path = DistributedCache.getLocalCacheFiles(conf);
System.out.println("获取的路径是： " + path[0].toString());
// FileSystem fs = FileSystem.get(conf);
FileSystem fsopen = FileSystem.getLocal(conf);
FSDataInputStream in = fsopen.open(path[0]);
// System.out.println(in.readLine());
// for(Path tmpRefPath : path) {
// if(tmpRefPath.toString().indexOf("ref.png") != -1) {
// in = reffs.open(tmpRefPath);
// break;
// }
// }

// FileReader reader=new FileReader("file://"+path[0].toString());
// File f=new File("file://"+path[0].toString());
// FSDataInputStream in=fs.open(new Path(path[0].toString()));
Scanner scan = new Scanner(in);
while (scan.hasNext()) {
System.out.println(Thread.currentThread().getName() + "扫描的内容: " + scan.next());
}
scan.close();
//
// System.out.println("size: "+path.length);

}

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

// System.out.println("map aaa");
// logger.info("Map里的任务");
System.out.println("map里输出了");
// logger.info();
context.write(new Text(""), new IntWritable(0));

}

@Override
protected void cleanup(Context context) throws IOException, InterruptedException {

logger.info("清空任务了。。。。。。");
}

}

private static class FileReduce extends Reducer<Object, Object, Object, Object> {

@Override
protected void reduce(Object arg0, Iterable<Object> arg1, Context arg2)
throws IOException, InterruptedException {

System.out.println("我是reduce里面的东西");
}
}

public static void main(String[] args) throws Exception {

JobConf conf = new JobConf(CacheDemo2.class);
// conf.set("mapred.local.dir", "/root/hadoop");
// Configuration conf=new Configuration();

// conf.set("mapred.job.tracker","192.168.75.130:9001");
// 读取person中的数据字段
// conf.setJar("tt.jar");

// 注意这行代码放在最前面，进行初始化，否则会报
String inputPath = "hdfs://10.199.5.215:9000/examples/join/input";
String outputPath = "hdfs://10.199.5.215:9000/examples/join/output";

Job job = new Job(conf, "CacheDemo2");
DistributedCache.addCacheFile(new URI("hdfs://10.199.5.215:9000/test/tb_dim_city.dat"), job.getConfiguration());
// DistributedCache.addCacheFile(new URI("/tmp/fs"), job.getConfiguration());
job.setJarByClass(CacheDemo2.class);
System.out.println("运行模式： " + conf.get("mapred.job.tracker"));
/** 设置输出表的的信息第一个参数是job任务，第二个参数是表名，第三个参数字段项 **/
// FileSystem fs = FileSystem.get(job.getConfiguration());

// Path pout = new Path(outputPath);
// if (fs.exists(pout)) {
// fs.delete(pout, true);
// System.out.println("存在此路径, 已经删除......");
// }
/** 设置Map类 **/
// job.setOutputKeyClass(Text.class);
// job.setOutputKeyClass(IntWritable.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setMapperClass(FileMapper.class);
job.setReducerClass(FileReduce.class);
FileInputFormat.setInputPaths(job, new Path(inputPath)); // 输入路径
FileOutputFormat.setOutputPath(job, new Path(outputPath));// 输出路径

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}

tswisdom

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop分布式缓存(DistributedCache)

package h2.cux.examples.distributedcache;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.net.URI;import java.util.Scanner;import org.apache.had
复制链接

扫一扫

专栏目录