hadoop
cm_chenmin
这个作者很懒,什么都没留下…
展开
-
Hadoop中两表JOIN的处理方法
本文转自:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/ 1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给转载 2016-11-09 21:53:39 · 1752 阅读 · 0 评论 -
MapReduce Shuffle原理 与 Spark Shuffle原理
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射转载 2016-11-26 20:15:03 · 1521 阅读 · 0 评论