hadoop
流浪喵
这个作者很懒,什么都没留下…
展开
-
MapReduce编程模型概述
从MapReduce自身的命名特点可以看出,MapReduce由两个阶段组成:Map和Reduce。用户只需编写map()和reduce()两个函数,即可完成简单的分布式程序的设计。 map()函数以key/value对作为输入,产生另外一系列key/value对作为中间输出写入本地磁盘。MapReduce框架会自动将这些中间数据按照key值进行聚集,且key值相同(用户可设定聚集策略,默认情况转载 2016-08-22 20:50:24 · 2493 阅读 · 0 评论 -
HDFS基本架构
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 HDFS的架构如图2-4所示,总体上采用了master/slave架构,主要由以下几个组件组成:Client、NameNode、Secondary、NameNode和DataNode。 (1)Client Client(代表用户)通过与NameNode和转载 2016-08-22 20:59:25 · 1885 阅读 · 0 评论 -
Hadoop中常用的InputFormat、OutputFormat
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的: TextInputFormat 作为默认的文件输入格式,用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一转载 2016-08-22 21:46:43 · 791 阅读 · 0 评论