在用map reduce时候遇到的问题

1.DistributedCacha不能用了:

一开始以为是mapreduce的版本不对或者hadoop的版本跟公司的平台不兼容,后来发现是

公司给禁了。。

解决办法:每个mapper/reducer都读从hdfs上面读一遍文件,缺点显而易见;将文件读好,然后用conf.set() 放在configuration中,缺点:数据量大的话肯定会出问题。

 

2.排序慢。

需求:需求中的一部分,不仅要对key进行排序,还需要对value进行排序,还要遍历。

为了解决这个问题从头到尾大概花了一个月时间。

一开始,我的mr要处理的数据量并不是很大,那时候对数据的量级没有概念,想着偷懒(然后被leader批评了),用的是在reducer中储存完全部的数据,然后在reduce中对全量数据进行一次排序。缺点:显而易见,完全放弃了mapreduce的优点,放弃了reduce的流式处理的特点,本末倒置了。数据量稍微大一点(几百万)就处理的很慢。

后来改用二次排序。解决了燃眉之急,第一个需求算是写完了,大概能处理千万级别的数据了。因为是对hive表的每个列都需要排序,还自己实现了一个WritableComparable类来做这个。但是后面数据量到了亿级了,二次排序又不能满足需求了。慢在两点上:

1:在shuffle操作是,reduce要merge所有map的数据,这里花了很长的时间。

2:因为排了序,所有数据都要经过同一个reduce来处理,也就是说一个reduce要处理几亿的数据,造成了瓶颈。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值