告诉你Hadoop是什么--童亚斋

转载 2013年12月02日 09:56:29

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息. 

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

谈谈软件架构和架构师--童亚斋

谈谈架构和架构师。
  • sameseam
  • sameseam
  • 2013年05月13日 13:58
  • 700

谈谈「互联网+」下B2B电商的建设--童亚斋

B2B市场在整个中国GDP的占比超过40%,到2020年市场规模有望达到几十万亿。尤其是2015年两会克强总理提出「互联网+」之后,「产业+互联网」逐渐兴起,B2B又迎来了一个爆发期。B2B在新的一轮...
  • sameseam
  • sameseam
  • 2016年11月10日 11:35
  • 546

告诉你Hadoop是什么

转自:http://os.51cto.com/art/201207/346023.htm 这是我看到的一篇对hadoop整体介绍比较好的博客,转过来自己学习,也希望帮到入门级hadoop学习...
  • muguangzhilian
  • muguangzhilian
  • 2015年12月30日 22:12
  • 328

告诉你Hadoop是什么

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算....
  • xuezhisdc
  • xuezhisdc
  • 2016年07月30日 16:02
  • 1218

告诉你Hadoop是什么 [转]

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop...
  • qq1175421841
  • qq1175421841
  • 2016年04月18日 19:52
  • 179

告诉你Hadoop是什么

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop...
  • sundaytok
  • sundaytok
  • 2014年03月24日 16:25
  • 341

告诉你Hadoop是什么【图解】

Hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。   Ha...
  • han____shuai
  • han____shuai
  • 2016年01月24日 12:05
  • 162

告诉你Hadoop是什么

文章来源 http://os.51cto.com/art/201207/346023.htm Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用ja...
  • qqlrq
  • qqlrq
  • 2014年03月26日 00:47
  • 305

告诉你Hadoop是什么

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop...
  • clerk0324
  • clerk0324
  • 2016年03月14日 14:44
  • 541

告诉你Hadoop是什么

告诉你Hadoop是什么 技术的发展是相当的快速,当我们还在为用三大框架做个实现了增删改查的项目而沾沾自喜时,殊不知别人出口闭口谈论的已都是大数据,云计算之类的貌似很高大上的东东。我们已经进入了第...
  • qq_14926159
  • qq_14926159
  • 2015年09月24日 14:33
  • 616
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:告诉你Hadoop是什么--童亚斋
举报原因:
原因补充:

(最多只允许输入30个字)