HDFS的基本概念:
1.HDFS的概述:
HDFS:(Hadoop Distributed File System)就是hadoop的分布式文件存储系统,主要是用来存储海量数据(TB,PB以上的级别),并且为用户提供一个统一的资源访问接口,让用户感觉到只是在访问一个普通的文件系统。
分布式:分布式是指将系统的组件或任务分散到不同的计算机或节点上进行处理的计算模型。在分布式系统中,不同的计算机或节点通过网络连接进行通信和协调,共同完成一个任务或提供一个服务。分布式存储比普通存储方式节省时间。
HDFS本质上就是一个分布式文件存储系统,通过这个软件,实现多个服务器的磁盘进行打通操作,构建一个更大的存储空间,交由HDFS进行管理,而数据最终都是落在各个服务器的本地磁盘上。
2.HDFS的优点:
(1)存储非常大的文件:适合于存储大文件。且成本低,大大缩短了处理时间,可以实现高吞吐量。
(2)高容错:HDFS利用众多服务器实现分布式存储,每个数据文件都有2个冗余备份,也就是每个数据文件都将被存储3次。如果存储数据的某个服务器发生了故障,数据还有2个备份,因此,HDFS具有高容错的特性,允许服务器发生故障。
(2)一次写入,多次读取:一旦将数据存储进去后,不需要对数据进行修改,后期只是查询。
3.HDFS的缺点:
(1)低延时的数据访问,对延时要求在毫秒级别的应用。
(2)不适合存储大量的小文件:因为每个文件都会产生各自的元数据,而元数据存储在Namenode的内存中,小文件过多容易导致NameNode存储出现瓶颈。
(3)需要进行多次修改数据的操作业务。