HDFS概述
DHFS(Hadoop Distributed File System),Hadoop分布式文件系统
适合存储大型数据(比如TB和PB),其就是使用HDFS作为存储系统
HDFS对数据文件的访问通过流的方式进行处理,这就意味着可以通过命令和MapReduce程序的方式
可以直接使用HDFS
HDFS使用多台计算机存储文件,并且提供统一的访问接口,像是访问普通文件系统使用分布式文件系统
现在有一个2T的a.txt 在一台电脑上无法直接放下,怎么解决?引申出下面的问题
如何解决大文件存储问题?答:切分
完整的文件a.txt被切分到3台电脑上,存放在不同的电脑上,怎么去访问呢?
为了解决这个问题:提出了HDFS文件系统
HDFS相当于做了资源整合,相当于node01、node02和node03贡献出了一块1T磁盘,一共3个T就可以放下2T的a.txt文件
这个思想就是分布式存储思想
有一个客户端Client要访问HDFS系统下的a.txt,Client根本不需要知道这个2T的a.txt是如何存储的,只要能完整的读到完整的2T的a.txt即可
--------------华丽的分割线--------------
醒来的时候,希望自己不负大好时光,To know the unknown