要用的版本hadoop-2.6.0-cdh5.7.0
hive-1.1.0-cdh5.7.0
文件以多副本的方式存储:
file1:node1 node2 node3
file2:node2 node3 node4
…
缺点:1.不论文件多大都放在一个节点,难并行处理。限于网络无法大数据处理
2.存储负载难以均衡,利用率极低
确定一个单位块的大小来解决
由此引出分布式文件系统HDFS
1 master(Namenode/NN)带N个Slaves(Datanode/DN)
一个文件会被拆分成多个block eg:128M–blocksize 130M–>128M and 2M
NN:
1)负责客户端的响应
2)负责元数据(文件名称、副本系数、Bolck存放的DN)的管理
DN:
1)存储用户的文件对应的数据块(Block)
2)要定期向NN发送心跳信息,回报本身及其所有的block信息,健康状态
注:可以部署在廉价机器上
一个机器部署NN,其他机器部署DN,虽然可以一台机器部署多个DN,但生产环境下不会这样选择。建议NN和DN部署于不同节点
HDFS副本机制:
replication factor:副本因子
副本是为了容错,可根据文件划分block大小
一个文件中所有的block除了最后一块都是一样大的
分机架(rack)可以做到信息容错。A Rack报废还有B Rack