MapReduce使用DistributedCache

会有这样一种场景:有个非常大的文件需要和一个很小的文件去关联,即:一张大表去关联一张小表。

如果是在Hive里可以用MapJoin的方式,但是这种方式不是很灵活虽然也支持不等值连接,例如:有这样一个需求,有一个很大的日志文件,这个文件中有个字段是用户的IP(这里的IP是长整形),有一个很小的文件记录了IP范围对应的地域信息,我需要知道这些用户的地域分布信息,如果用MapJoin的话需要用大于和小于去比较,这种方式经测试发现效率极低。

于是想到了DistributedCache的方式,DistributedCache翻译过来就是分布式缓存,把小文件载入到内存中,在MapReduce的时候直接和内存中的小文件进行关联即可。实现思路:

1、使用DistributedCache将保存IP地域信息的文件加载至内存;

2、在map里每处理一条日志就在内存中查找符合这个用户IP的地域(这里使用二分查找,效率还不错)。

Map类的代码如下:

public static class ConfigStatistic2Mapper extends
		Mapper<LongWritable, Text, Text, IntWritable> {

	ArrayList<String> ipLocationLi
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值