在本文之前,我建议先看完这篇文章:Linux高性能计算集群 – Beowulf集群
一、搭建集群中可能会遇到的问题
1.集群设计/布局的一大难点就是网络,各家有各家的策略,一般围绕Beowulf变型。
2.软件的部署缺乏实操调试,也不能断定这样部署是否成功以及是否优越。
3.操作系统的选型以及安装系统、所需软件(包括集群管理工具、驱动软件、能耗监控软件等)的整个流程的手动/自动化部署。
4.每个提供硬件的对应公司几乎都推出他们自己的集群管理软件,浪潮好像没有,在HPC方面浪潮好像没有相应的开发社区,DELL和IBM这些大公司都有。
5.能耗的衡量,具体的优化方向和策略。
二、HPC概览
①总体构成
Outside Network: 外部网络
Master Node: 主节点
Compute Nodes: 计算节点
Storage: 存储器
Computational Network: 计算网络
Management Network: 管理网络
②大多数 HPCC 系统配有两个网络
- 基于TCP的管理网络
- 计算网络,可以是基于 TCP 或其它协议的,通常是 InfiniBand 或 Myrinet 10G 之 类的高速网络
③拓扑图
网上找的普遍认可的:
这个是自己根据实际情况“臆想”的:
④所需软件组件(按安装顺序):
1、对于安装系统:
集群中的每个节点(HPCC 节点文章链接)、主节点、登录节点和计算节点都需要有操作系统。操作系统可以安装在节点的硬盘驱动器上,甚至可以安装在ramdisk 上,这有时被称为“无盘”或“无状态”节点。一般说来,主节点创建所谓的“映像”,然后将其发送到计算节点上进行安装(硬盘驱动器或 ramdisk 上)。