分布式系统是由一组通过网络进行通信、为了完成共同的任务(WordCount)而协调工作的计算机节点(自由扩展)组成的系统 HDFS主要做存储。
HDFS是分布式系统系统的一个产品或者是实现。
和缺点优点:进行大文件存储,Blok 128MB缺点:暂时不支持多用户写入及随意修改文件
HDFS体系结结构: HDFS采用的是Master/Slave架构,一个HDFS一个NameNode和一定数目的DataNode组成 NameNode是一个中心服务器,
主要负责管理命名空间系统文件,和处理客户端请求。
NameNode作用:1.维护命名空间2.维护系统文件目录3.维护索引目录4.处理客户端请求
DataNode的作用:保存block:以块的形态保存我们的文件数据启动DataNode线程的时候会向NameNode汇报block信息通过向NameNode发送心跳保持与其联系(3秒一次),
如果NameNode10分钟没有收到DataNode的心跳,则认为其已经lost,并copy其上的block到其它DataNode真正的Copy过程到底是什么
通过代码寻找DataNOde上block快的位置
/usr/local/bigdata/hadoop-2.8.0/hdfs/data/current/BP-2137810398-127.0.0.1-1512903721301/current/finalized/subdir0/subdir0
SecondaryNameNode作用:定期拷贝NameNode上的fsimage和eidt文件到SecondaryNameNode上面,进行merge(合并)。
合并完成后,通过Http手段回传到NameNode,并且进行文件的替换操作 SecondaryNameNode位置/usr/local/bigdata/hadoop-2.8.0/tmp/dfs/namesecondary/current