硬件选择
如何选择合适的硬件
主节点:
NameNode的内存决定了集群保存文件数的总量。ResourceManager同时运行的作业会消耗一定的内存。
4-6块 1TB 硬盘(1块给操作系统,2块给FS image [RAID 1],1块给Zookeeper , 一块给Journal Node)
2 个 16/32 核心处理器,主频至少为 2-3GHz
64 – 128G 内存
万兆网卡
从节点:
从节点的内存需要根据cpu的虚拟核数(vcore)进行配比,cpu的vcore数计算公式为=cpu个数单cpu核数ht(超线程数),内存容量大小=vcore数*2GB(至少2GB)
12-24块1-4TB硬盘
2个 16/32核心处理器,主频至少2-2.5GHz
64-256G 内存
万兆网卡(存储密度越高,需要的网络网络吞吐越高)
如果集群的主机数超过20,那么推荐将集群划分为2个机架,每个机架配备一个万兆的顶层交换机
节点数量:根据数据量确定集群规模
举个栗子:全量起始1TB,每天增加10G
一年:
(1TB+10GB365)3*1.3=17.8TB
节点数=18TB/2TB=9
总节点数=9+2=1
还要考虑作业并不是均匀分布,有可能会倾斜到某一个时间段,需要预留资源。
交换机选项:不要让网络I/O成为瓶颈
hadoop作业通常是I/O密集型而非计算密集型,