集群规划:
数据量大小(中小型电商网站)
->访客数:300w左右
->页面数:30个
->记录大小:400左右字节
假设有30个字段 400字节
->一天数据量:
300 0000 * 30 * 0.4K = 36G
数据量大小:36G
常规中小型公司一天的数据量:20GB~40GB
->存储3年
36G * 365 * 3 * 3 = 118.26TB
一台机器:8*2=16TB
可用空间:16*80%=12.8TB
DataNode:118.26/12.8 = 9 + (1~3) = 10 - 13台
所有集群台数:
DataNode、nodeManager、regionServer:10 - 13台
NameNode + resourceManager:3
node1:NameNode(active)
node2:NameNode/resourceManager(standby)
node3:resourceManager(active)
Hive azkaban:2
hiveserver2、metastore
zookeeper:3
两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程
进行相互通信。当active状态的NameNode的命名空间有任何修改时,会
告知大部分的JournalNodes进程。standby状态的NameNode有能力读取
JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。
JournalNodes 3。
机器选型:
8核16G 16核32GB 32核64GB
yarn:计算
task:1核1GB
NameNode:16GB
regionServer:16GB
元数据存储硬盘/zookeeper硬盘:SSD