此处主要是将HDFS和map-reduce的基本原理写在这儿,免得以后忘记了找不到
HDFS:
大体框架如下:
NameNode:记录文件在DataNode的位置信息和元数据信息,类似index,真正的数据存储在DataNode节点
DataNode:存储的管理者,一次写入,多次读取(好处:不需要考虑一致性),将程序划分为许多大小为64M的数据块,分布并冗余存放在各个DataNode节点中
过程如下:
1,当客户端发起读任务时,查询NameNode,查询读写数据块具体位置,NameNode将分布信息返还给client
2,client再次一次对文件所在的DataNode发起读命令,DataNode将文件一次传入client
3,当发出的是写命令时候,namenode还需要负责查询是否有相同文件在系统中,没有则分配磁盘快来存储,HDFS中没有修改一说,修改就是删除