本小节我们来学习Hadoop的HDFS系统,我们先来体验一下HDFS然后再来了解他的原理。
HDFS初体验
HDFS(分布式文件管理系统),故名思议,它就是我们用来管理海量文件的一个系统。现在是一个数据量爆炸的时代,普通的操作系统管辖不了这么多文件,那么就需要分配到更多文件系统的磁盘中,但是这样又不利于管理和维护,所以我们迫切的需要一个系统来管理多台机器上的文件,分布式文件管理系统就应运而生。
分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统,可以让可让多机器上的多用户分享文件和存储空间。
分布式文件系统有很多,HDFS是最常见也是使用人数最多的系统之一,适用于一次写入多次查询的情况,不支持并发写的情况,小文件不合适放在HDFS系统中。
刚开始学习,你可以简单的将HDFS理解为Windows文件系统。
好了,说了这么多我们开始用一用吧。
首先我们启动HDFS:
start-dfs.sh
接着我们来查看HDFS的根目录:
hadoop fs -ls /
现在输入该命令应该是空空如也的,因为我们HDFS系统中还没有任何文件和文件夹,好既然没有那咱们就来创建一个文件夹。
创建文件夹之后输入之前的命令就可以看到根目录下有