HADOOP
煜涵
What is more pain? The pain of hard work, or the pain of regret ?
展开
-
Hadoop之HDFS文件操作
感谢原作者:http://blog.csdn.net/wangloveall/article/category/1922343摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。关键词:HDFS文件 命令行 Java APIHDFS是一种分布式文件系统,为MapReduce这种框架转载 2015-08-24 16:22:35 · 339 阅读 · 0 评论 -
在hadoop中,map->combine->partition->shuffle->reduce,五个步骤的作用
combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。Mapper最终处理的键值对<key, value>,是需要送到Reducer去合并的,合并的时候,有相同key的键/值对会送到同一个Reducer那。哪个key到哪个Reducer的分配过程,是由Partitioner规定的原创 2015-10-14 21:45:19 · 440 阅读 · 0 评论 -
Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使转载 2015-10-14 21:46:00 · 536 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
转自:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce转载 2015-10-14 21:50:39 · 254 阅读 · 0 评论