HDFS是Hadoop分布式文件系统。
当我们要保存文件时只能登录到具体的某台服务器,然后把文件存到其中的磁盘上,但是如果我要存储的文件很多而这台服务器恰好都存满了那我只能接着找下一台服务器接着存;但是对于存文件的人来说工作很繁琐。如何高效?能不能把要存的文件交给一个中间人让他来决定把我要存的文件放到哪台服务器上,分布式文件系统的功能由此而来。
每次存文件时只需调用HDFS对应的服务,HDFS就是自动将要存的文件根据一些规则运算把它存到一台合适的服务器硬盘上,而且为了防止这个文件因为某些原因被误删,HDFS还会把这个文件在其他机器上存一份一摸一样的拷贝,而这就是HDFS的容错机制。
对于读取文件原理是一摸一样的。