一.Hadoop简介
Hadoop是由Apache软件基金会所开发的分布式系统架构,用户可以将自己所开发的分布式程序部署其上面,充分利用集群的优势对海量数据进行高速运算和存储。Hadoop的框架最核心的设计是:HDFS和MapReduce。HDFS为海量数据提供了存储,MapReduce为海量数据提供了运算。
二.HDFS分布式文件系统
HDFS是一种分布式文件系统。它出现的目的是为了解决海量数据存储问题。它是部署在由很多文件存储服务器组成的集群上。HDFS启动后,会监听一个端口,由Namenode提供一个统一的虚拟的目录树并对外呈现,用户无需关心文件具体存在哪个地方。其存储文件工作原理如图2-1所示,图2-1右下角“cts03”应该改为“cts04”,其读取文件工作原理如图2-2。
图2-1 HDFS工作原理图
对HDFS工作原理简述如下: