1.DistributedCacha不能用了:
一开始以为是mapreduce的版本不对或者hadoop的版本跟公司的平台不兼容,后来发现是
公司给禁了。。
解决办法:每个mapper/reducer都读从hdfs上面读一遍文件,缺点显而易见;将文件读好,然后用conf.set() 放在configuration中,缺点:数据量大的话肯定会出问题。
2.排序慢。
需求:需求中的一部分,不仅要对key进行排序,还需要对value进行排序,还要遍历。
为了解决这个问题从头到尾大概花了一个月时间。
一开始,我的mr要处理的数据量并不是很大,那时候对数据的量级没有概念,想着偷懒(然后被leader批评了),用的是在reducer中储存完全部的数据,然后在reduce中对全量数据进行一次排序。缺点:显而易见,完全放弃了mapreduce的优点,放弃了reduce的流式处理的特点,本末倒置了。数据量稍微大一点(几百万)就处理的很慢。
后来改用二次排序。解决了燃眉之急,第一个需求算是写完了,大概能处理千万级别的数据了。因为是对hive表的每个列都需要排序,还自己实现了一个WritableComparable类来做这个。但是后面数据量到了亿级了,二次排序又不能满足需求了。慢在两点上:
1:在shuffle操作是,reduce要merge所有map的数据,这里花了很长的时间。
2:因为排了序,所有数据都要经过同一个reduce来处理,也就是说一个reduce要处理几亿的数据,造成了瓶颈。