根据数据量及Hadoop参数计算Datanode的个数
- 每天加工数据量:100GB
- 复制因子:3
- 月增长量:5%
- MapReduce中间数据:25%
- 非HDFS空间:30%
- 节点磁盘空间:4T
计算方法:
- 每天存储数据量所需要空间 = 每天加工数据量 x 复制因子 = 300GB
- 每月数据量 = (300 x 30) x (1 + 5%) = 9450GB
- 节点实际容量 = 4 x (1 - (0.25 + 0.30)) = 1.8T
**所需Datanode个数(当月):9.450/1800 ~= 6 **
如果要计算全年数据量所需要节点数,需考虑到月增长率
另:因为hdfs自身复制机制,所以没必要在Datanode上使用RAID机制
转载于:https://my.oschina.net/snowpipe/blog/748649