大数据平台部署方案
在部署大数据平台前,需要做的最重要的一部分公司就是硬件服务器的选型,这部分一定要根据业务的实际情况来选择不同的服务器,原则是既能满足未来三年的业务发展也要尽可能的缩减成本,硬件服务器可考虑自建IDC或用云服务器,本方案是以自建服务器为前提的,本教程可以让你理解选型的方案以及目标,非常 nice !!
- 需求说明
通过前期沟通,新建大数据平台为11个计算与数据节点应用群集。每节点基本配置根据hadoop官方推荐并结合前期应用经验,在新的群集中,各节点希望配置 32核心CPU、 内存128G、数据盘10T。监控、调度及查询工具服务器与11个节点独立部署,使用CentOS操作系统,服务器采用万兆网卡互联。
详细配置需求见下表:
序号 | 服务器 | 数量 | CPU | 内存 | 磁盘 | |
---|---|---|---|---|---|---|
系统盘 | 数据盘 | |||||
1 | 数据和计算节点 | 11 | 32线程 | 大于等于128G | 100G SSD OS200G SSD Log | >10T |
2 | 监控 | 1 | 8线程 | 大于等于64G | 100G SSD | 200G |
3 | 调度 | 1 | 8线程 | 大于等于64G | 100G SSD | 200G |
4 | 查询工具 | 1 | 8线程 | 大于等于16G | 100G SSD | 200G |
-
实施建议
在新的大数据平台中,计划继续采用虚拟化的方式部署,这样主要考虑基于当前统一的管理监控平台,并兼容现有服务器的迁移和扩容。
通过对需求的分析,在服务器方面:大数据平台计划通过6台物理机组成的虚拟化群集部署,每台物理机承担 2 台计算与数据节点,用于进行数据的实时计算、离线计算、数据分析、数据挖掘和数据存储。
在网络方面,建议再单独采购1台交换机与现有交换机配置堆叠,做网络硬件层的冗余,各接口做链路捆绑以提高数据传输性能,保障平台与外围系统间的链路稳定。
服务器与网络交换机的配置见下表,下面两种服务器配置二选一,区别是硬盘配置不同。建议采用SSD硬盘,SSD吞吐量和IOPS都远高于HDD,虽然价格较高且有使用寿命的问题,但性价比较高,但随单位价格持续下降,无障碍运行时间在不断向HDD靠拢,差距已经不是很大。SSD主要优势在随机读写,连续读写也有优势。
序号 | 设备名称 | 配置及技术要求 | 数量 | 用途 |
---|---|---|---|---|
1 | 建议服务器配置1 | 处理器 2颗 英特尔 至强 金牌 5218R 2.1GHz 20核内存 384G内存1232GB;系统硬盘 2480G;数据盘: 12*2T NVMe SSD 网:万兆光纤其它:企业版远程访问控制授权; | 6 | 大数据 |
2 | 建议服务器配置2 | 处理器 2颗 英特尔 至强 金牌 5218R 2.1GHz 20核内存 1232GB;系统硬盘 2480G;22T NVME SSD数据盘: 122.4T DD; 网卡:万兆光纤其它:企业版远程访问控制授权; | 6 | 大数据 |
4 | 交换机 | 华为(HUAWEI)24光口万兆高性能核心企业级交换机S6720-30C-SI-24S-AC 配置20SFP万兆光模块 140G堆叠线 3米 | 1 |