简介
本文简单介绍了HDFS的架构,并总结了HDFS的主要特性。
分布式文件系统DFS(Distributed File System)
在了解HDFS之前,先来看一下什么是分布式文件系统。分布式文件系统说的是跨越多台计算机或服务器来管理如文件或目录等数据。换句话说,分布式文件是允许我们在一个集群的多个节点或机器上存储数据,并允许多个用户访问这些数据的文件系统。基本上,它实现了其它文件系统如Windows系统上的NTFS, Mac系统上的HFS等相同的功能,唯一的差别就是在分布式文件系统的场景下,用户将数据存储在多台机器上而非单个机器上。尽管文件的存储跨越网络,在某种程度上,分布式文件系统对于数据的组织和显示,使得用户操作起来感觉所有的数据都存储在单台机器上。
HDFS(Hadoop Distributed File System)
HDFS是基于Java的分布式文件系统,允许用户在Hadoop集群里跨多个节点(node)存储大的数据。所以,如果你安装了Hadoop,你就可以在分布式环境下,使用HDFS作为存储系统来存储数据。这里举一个例子来理解HDFS。想象一下你拥有10台机器或计算机,每台机器拥有1TB容量的存储器。如果你在这10台机器上安装了Hadoop作为运行的平台,那HDFS将为你提供容量为10TB分布式存储服务,每台机器都将贡献它们的存储空间来存储任何类型的数据。
HDFS是一个高度容错性的分布式文件系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在介绍这些特性之前,我们先来了解一下HDFS架构。
HDFS架构