从零开始学习Hadoop--第3章 HDFS分布式文件系统

最新推荐文章于 2024-05-05 04:31:28 发布

未济2019

最新推荐文章于 2024-05-05 04:31:28 发布

阅读量2.9k

点赞数

分类专栏：从零开始学习Hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/lizhe_dashuju/article/details/13502781

版权

这篇博客从头介绍文件系统，并深入讲解Hadoop的HDFS分布式文件系统。内容涵盖如何复制、删除、读取HDFS文件，以及获取文件属性和列出目录下所有文件的步骤。通过实例代码演示了HDFS的基本操作，适合初学者掌握Hadoop文件系统。

摘要由CSDN通过智能技术生成

1.文件系统从头说

文件系统的作用就是永久存储数据。计算机可以存储数据的地方是内存，硬盘，优盘，SD卡等等。如果计算机断电关机，存放在内存里的数据就没有了，而存放在硬盘优盘SD卡这些上的数据会仍然存在。硬盘优盘SD卡上的数据是以文件的形式存在，文件系统就是文件的组织和处理。总之，凡是断电之后不会消失的数据，就必须由文件系统存储和管理。

从用户的角度来说，文件系统需要提供文件的创建，删除，读，写，追加，重命名，查看属性，更改属性等各种功能。文件夹，也叫目录，它的作用类似容器，保存其他文件夹和文件。于是，各级文件夹和各级文件就共同组成了文件系统的层次，看起来象一棵倒放的树，最上层是最大的目录，也叫根目录，然后这个目录包含子目录和文件，子目录又包含更多的子目录和文件，这棵树的术语叫目录树。

起初，Linux使用的文件系统是Minix文件系统。但Minix系统有不少限制，诸如最大文件尺寸只有64M，文件名最多是14个字符长度。后来，Linux内核加入了VFS，也就是虚拟文件系统VirtualFileSystem。VFS是Linux内核和真正文件系统之间的抽象层，它提供统一的接口，真正的文件系统和Linxu内核必须通过VFS的接口进行沟通。随后，Linux逐步使用基于VFS的ext文件系统，ext2文件系统，ext3文件系统等等。基于VFS，Linux对Windows的FAT和NTFS格式也提供支持。

通常情况下，Linux的文件系统是单机的，也就说，从物理的角度看，文件系统只存储单台计算机的数据。分布式文件系统在物理上分散的计算机上存储数据。比如，NFS（NetWorkFileSystem）是一种非常经典的分布式文件系统，它基于VFS，由Sun公司开发的。本质上，NFS是在物理上分散的计算机之间增加了一个客户-服务器层。对NFS，可以这么理解：计算机A有自己的VFS，计算机B也有自己的VFS，那么，如果A想操作B上的文件，A的数据和命令依次通过的路线是：A的VFS-->A的NFS客户端-->网络-->B的NFS服务器端-->B的VFS-->B的文件系统。

2.Hadoop的文件系统

Hadoop借鉴了VFS，也引入了虚拟文件系统机制。HDFS是Hadoop虚拟文件系统的一个具体实现。除了HDFS文件系统之外，Hadoop还实现很多其他文件系统，诸如本地文件系统，支持HTTP的HFTP文件系统，支持Amazon的S3文件系统等等。

HDFS从设计上来说，主要考虑以下的特征：超大文件，最大能支持PB级别的数据；流式数据访问，一次写入，多次读取；在不可靠的文件，故障率高的商用硬件上能运行。Hadoop的不利之处，是不适应低时间延迟的数据访问，不适应大量的小文件，也不适应多用户写入任意修改文件的情况。

假设有一个HDFS集群，那么这个集群有且仅有一台计算机做名字节点NameNode，有且仅有一台计算机做第二名字节点SecondaryNameNode，其他机器都是数据节点DataNode。在伪分布式的运行方式下，NameNode，SecodaryNameNode，DataNode都由同一台机器担任。

NameNode是HDFS的管理者。SecondaryNameNode是NameNode的辅助者，帮助NameNode处理一些合并事宜，注意，它不是NameNode的热备份，它的功能跟NameNode是不同的。DataNode以数据块的方式分散存储