MapReduce使用DistributedCache

最新推荐文章于 2020-01-17 14:16:35 发布

JohnLee310

最新推荐文章于 2020-01-17 14:16:35 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 大数据文章标签： mapreduce DistributedCache

本文链接：https://blog.csdn.net/lizhang310/article/details/24422387

版权

会有这样一种场景：有个非常大的文件需要和一个很小的文件去关联，即：一张大表去关联一张小表。

如果是在Hive里可以用MapJoin的方式，但是这种方式不是很灵活虽然也支持不等值连接，例如：有这样一个需求，有一个很大的日志文件，这个文件中有个字段是用户的IP（这里的IP是长整形），有一个很小的文件记录了IP范围对应的地域信息，我需要知道这些用户的地域分布信息，如果用MapJoin的话需要用大于和小于去比较，这种方式经测试发现效率极低。

于是想到了DistributedCache的方式，DistributedCache翻译过来就是分布式缓存，把小文件载入到内存中，在MapReduce的时候直接和内存中的小文件进行关联即可。实现思路：

1、使用DistributedCache将保存IP地域信息的文件加载至内存；

2、在map里每处理一条日志就在内存中查找符合这个用户IP的地域（这里使用二分查找，效率还不错）。

Map类的代码如下：

public static class ConfigStatistic2Mapper extends
		Mapper<LongWritable, Text, Text, IntWritable> {

	ArrayList<String> ipLocationLi

最低0.47元/天解锁文章

JohnLee310

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce使用DistributedCache

会有这样一种场景：youyi
复制链接

扫一扫

专栏目录

MapReduce使用DistributedCache

“相关推荐”对你有帮助么？