hadoop
文章平均质量分 84
ivysister
这个作者很懒,什么都没留下…
展开
-
mapreduce的shuffle阶段详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2016-03-13 21:19:11 · 628 阅读 · 0 评论 -
bitmap与bloomfilter(比较清晰的讲解)
转载地址:http://blog.csdn.net/gugemichael/article/details/8013150今天,有个同学向我咨询大数据的一些面试题,其中一类比较有代表性比如判断是否在集合内,比如10个url,判断一个url是否在集合内,还比如有个1~100万个连续无序数字,随机取出里面的N个,求这N个数字等等。这类问题都需要一个大的数据集合,而且每个数据单元都很小,比如一个转载 2016-03-26 16:39:26 · 4182 阅读 · 0 评论 -
spark的性能优化
因为之前在tesla集群上申请了1000个节点被喷之后,现在只敢申请100个节点,后来导致一个严重的结果,自从100节点以来再也没有跑出结果。。。。。。进而意识到了spark优化的重要性,现再次总结一下:1.一个通用的调整并行度的方式:首先要明确一个概念,Hadoop为每一个partition创建一个task, 我们使用task数来控制并行度,默认情况下是有输入源(HDFS) block的数量原创 2016-08-15 20:53:42 · 1088 阅读 · 0 评论 -
spark的shuffle过程优化那点事
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2016-08-28 18:55:52 · 3081 阅读 · 0 评论