【笔记】《高性能计算:现代系统与应用实践》Chapter 03 商用集群

笔记和摘录

3.1 基本概念

商用集群的定义

  • 商用集群是一组商品级计算机组成的系统。
    • 作为组件的计算机能够独立实现功能,这些计算机是可以销售给超算用途以外的、更广大消费群体的。
    • 连接各计算机的集成网络,不是在生产硬件时统一设计的,而是生产商各自开发和生产后,交付给系统构建者使用的。
    • 存储设备是现成的、非专门设计的,可以安装在计算机内部或连接在计算机外部。
    • 网络连接和设备连接都遵循统一的工业标准。
    • 系统软件通常是非专有的,多数是开源的、基于Linux的。
    • 编程语言选用C、C++或Fortran,使用MPI、MPI通信。
  • 总结:商用集群与历史上的HPC形式的不同点在于,其组件设计是先于系统设计的,是一种bottom-up 的形式,是**“有啥用啥”** 。传统的HPC形式均是从系统角度出发,逐层到组件设计,所有的设计都是专用的、为统一目标进行的,是一种top-down的形式,是*“用啥要啥”*。

为什么选择商用集群?

  • 易得性:目前中型超算是一般人能接触到最多的超算形式,而使用中型超算中的商用集群数量占大多数,所以很多人是从商用集群中获得的超算应用入门经验。
  • 性价比:相同价格下,商用集群比专用超算获得的峰值性能更高。
  • 规模可扩展:商用集群的节点数量可以按需增减。
  • 组件可配置:不但规模可变,节点关系、存储器、IO组件等均可指定。
  • 先进性:组件可以通过大规模生成实现规模经济,有效促进技术迭代。
  • 编程兼容性:可以使用MPP架构的编程方式进行编程,也可以与MPP架构共享应用程序代码和库。
  • 赋权(Empowerment):打破了专有软件和固定产品规范的束缚,给予了学术界用户更多的系统控制权,降低了入门成本。

商用集群4元素

  • 节点(Node)
    • 定义:一台能够独立处理用户工作负载的计算机。
    • 组成:运算执行组件、主存储器、通信组件。
    • 功能:执行用户计算。
  • 系统区域网络(System Area Network, or SAN)
    • 定义:使用各节点现成的通信组件,将各节点连接在一起成为分布式计算系统的网络形式。
    • 组成:物理数据通路(网线)、网络接口控制器NIC、路由器。
    • 功能:节点间数据消息传递,进程间同步和其他节点集体操作(如:归约)。
  • 主机(Host):
    • 定义:一种支持用户服务的特殊节点
    • 组成:除节点组成内容外,还可以拥有自己的辅助存储,可以使用集群内大容量存储,或访问外部文件系统。
    • 功能:用户服务包含账户登录、系统管理、资源分配调度、用户目录操作。可以同时为多个用户服务,也可以为不同用户作业分割计算节点。
  • 辅助存储(Secondary storage):
    • 功能:为用户文件和目录、用户程序、输入数据及集群作业结果提供永久存储。
    • 组成:物理上是一组磁盘驱动器,与控制器相连。
      在这里插入图片描述

发展趋势

  • 商用集群在500强名单中占比逐年上升,目前约为85%。
    在这里插入图片描述

  • 里程碑项目-Beowulf集群,采用英特尔处理器,Linux操作系统,以太网接口,催生了MPI接口。

3.4 编程接口

三种并行编程模式

  • throughput computing:大量的作业同时发生,作业间可以彼此独立或很少通讯。
  • message passing:单个作业内部需要进行大量通讯以加快求解时间。
  • shared-memory multiple-thread applications:针对单个作业(应用程序)进行加速,降低求解时间。

3.5 软件

操作系统:Linux
资源管理:SLURM
调试器:gdb
性能分析:perf
可视化:gnuplot
远程控制:ssh

3.8 练习题

  1. 说出集群节点中必需和可选硬件,描述其属性。说出哪些适合安装在计算节点,哪些适合安装在主机节点。在这些环境中,首选特征和参数是什么。
    必须组件:处理器,内存、网卡、主板
    可选组件:GPU,光盘,硬件接口(USB、SATA),局部存储
    主机节点适合安装:光盘,硬件接口
    计算节点适合安装:GPU
    计算节点的GPU应该更加高性能且可靠,主机节点的GPU通常用于可视化,可以价格低一些。
  2. 展开解释COTS,其在商用集群中的作用是什么?答:Commodity off-the-shelf components,商用现成组件,具有更大的消费者市场,从而可以享受到生产规模带来的性价比红利。
  3. 对比商用集群和工作站网络(Network of Workstations, NOW),指出优缺点。答:NOW有一系列高复杂度的工作站集群组成,强调组件的高质量和高性能。商用集群通过使用消费级产品尽可能降低成本,即使这样会对性能和效率造成一定影响。商用集群成本很低但同时可靠性差。
  4. 集群上开发自定义应用程序的步骤。答:设计程序,采用并行编程模式实现,编译,请求计算资源,启动程序。
  5. 为什么要保持文件系统层次结构一致性?答:确保用户能可靠地定位到文件,确保管理员能采用一致的命名方式管理系统组件。
  • 25
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值