本博客用于本人自学记录
如果有错误欢迎指出
什么是HDFS?
灵魂之问,先把我的理解摆上来,HDFS是一种分布式文件系统,HDFS可以让用户的读写操作作用在分布式的存储设备,例如多台计算机、集群式服务器。在互联网,每天都产生N多的数据,甚至用于描述这些数据的单位我都不会念,可见数据量非常之大,单台计算机至少在目前是没有办法同时解决这么大体量数据的写入和读出可能性。而HDFS主要功能就是解决大数据的存储、访问、备份,属于Hadoop生态中的底层的应用。
HDFS的框架
-
HDFS CLIENT
就是客户端,客户端发起各种请求。 -
NameNode
是存储文件属性信息的节点,该节点存储有datanode的信息,像window系统里的文件夹,确保客户端能够读到正确的datanode. -
DataNode
存储数据,HDFS把数据分布存储在不同的DataNode,同时DataNode会有冗余备份和接受NameNode发来的Heartbeat进行通讯。 -
Secondary NameNode
用于提高可靠性,通常不与Name Node放在一起。
HDFS读写流程
- 读的流程有6 步
- 写的过程是7步
HDFS的特点
根据HDFS 框架结构和工作原理,我们不难发现 HDFS可靠性很高,即使有数台服务器中断服务也不会影响到数据本身的存储与读写,对于数据就是能源的信息时代,安全可靠这点很重要。其次HDFS能够完成大规模数据的存储管理,这本身就是一个优点,但是却因此牺牲了读取的速度。