1.集群规模(规划)
1.1 规划原则:
1.消耗内存的分开。
2.kafka、ZK、Flume传输数据比较紧密的放在一起。
3.客户端尽量放在1到2台服务器上,一是风险隔离,导致集群内部受到不必要的干扰。二是作为跳板机,方便工程师外部访问。
4.有依赖关系的尽量放到同一台服务器(例如:HIVE和DS)
1.2 如何确定集群规模
假设每台服务器8T磁盘,128G内存。(数仓分层的话则考虑压缩情况重新计算。)
1)每天日活跃用户100万,每人一天平均100条: 100万x100条=1亿 条
2)每条日志1K左右,每天1亿条: 100000000/1024/1024 = 约100G
3)一年内不扩容服务器来算: 100G x 360天 = 约36T
4)保存3个副本: 36Tx3 = 108T
5)预留20%~30%Buf = 108T/0.7 = 154T
6)算到这: 约 8T*20 台服务器。
1.3规划详情参考
版本\主机 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
Hadoop 3.1.3 | nn | nn | dn | dn</ |