对HDFS架构和原理的理解
阅前须知: 在学习HDFS相关操作之前,需要对HDFS架构和原理进行深入的理解,在查阅资料的基础上,写一下我对于HDFS的深入理解。
HDFS的作用:
HDFS全称为(Hadoop Distributed File System)即 Hadoop分布式文件系统 HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS的主要优点:
1 可以存储超大文件**
这里的“超大文件”是指几百MB、GB甚至TB级别的文件。一般来说 hadoop的文件系统会存储TB级别或者PB级别的数据。
2 访问模式高效: 一次写入、多次读取(即流式数据访问)**
HDFS的数据处理规模比较大,应用一次需要访问大量的数据,这些应用一般都是批量处理,而不是用户交互式处理。应用程序能以流的形式访问数据集。主要的是数据的吞吐量,而不是访问速度。
3 检测和快速应对硬件故障**
在HDFS中硬件故障是常态,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都很可能出现故障,这就意味着HDFS里的总是有一些部件是失效的,因此,故障的检测和自动快速恢复是HDFS一个极大的优点
4 简化的一致性模型**
大部分HDFS操作文件时,需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后