1.Hadoop是一个分布式系统基础架构,是一种分析和处理大数据的软件平台, HDFS分布式存储(分布式文件系统),是所有组件的基础
2.HDFS设计理念
HDFS的设计理念源于非常朴素的思想;当数据集的大小超过单台计算机的存储能力时,就有必要将其进行分区并存储到若干台单独的计算机上,该系统架构与网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通文件系统更为复杂。 准确地说,Hadoop有一个抽象的文件系统的概念,HDFS只是其中的一个实现。
如果用户想访问一个文件,这个时候用户只会和HDFS打交道,而HDFS会负责从底层的相应服务器中读取该文件,然后返回给用户,用户不需要了解这个文件是怎么在多台机器上存储的。