Hadoop
jimmysenior
对软件感兴趣
展开
-
MapReduce的分区与分组的区别
MapReduce的分区与分组的区别 看了许多关于这方面的博客,大多在阐述概念,说的不是很让我明白。 我觉得分区就是根据key来决定哪些key-value被分到同一个reduce处理, 而分组是根据key来决定同一个reduce中的key-value在同一批次中进行处理。 在reduce中,一个key对应着一个迭代器,而这些迭代器中的值就来自于同一组。...原创 2018-04-24 11:30:49 · 2632 阅读 · 3 评论 -
聪明的代码
code1 在《数据算法Hadoop/Spark大数据处理技巧》一书中的第五章的反转排序中有一段映射器的代码能够得到领域为2的所有频度计数,代码量不大,但是思路让人敬佩。 Input:java is a great language output: (java,*) 2 (java,is) 1 (java,a) 1 (is,*) 3 ...原创 2018-05-15 15:16:28 · 231 阅读 · 0 评论