Mellanox Infiniband 架构设计快速实战指南 - A

Mellanox Infiniband作为目前高性能计算(HPC)行业高速互联网络最主流的厂商和解决方案,在HPC领域应用极为广泛,不论从规模的可扩展性,还是不同性能要求的匹配性上,都有着较完善的解决方案。
一旦你选定了要使用Infiniband作为HPC集群的内部高速互联网络,Mellanox提供了一个简易的配置工具,帮助你快速形成Infiniband的拓扑结构:
Mellanox Infiniband Topology Generator
下面我们就以这个工具为核心,展开讲一下Infiniband的架构设计。
(根据个人经验和理解整理,如有错误,欢迎讨论指正!)

1. 拓扑种类

Infiniband(以下简称IB)常用的拓扑种类包括:
Fat tree(胖树):最主流的网络拓扑
2D mesh
3D mesh
2D/3D torus

由于Fat tree结构是传统HPC架构中最主流的网络拓扑结构,所以我们这里主要介绍Fat tree topology。Generator工具中另一种可选的Dragonfly架构,是一种节点间“完全互联”的拓扑结构(如下图),这在商业HPC中较为少见(本人也见识有限…)这里就不过多介绍了。
在这里插入图片描述
当然,如果集群规模小到一台IB交换机即可以满足端口数量需求,就不涉及拓扑结构了。但如果集群后期有扩建规划,建议最初设计网络架构过程中考虑后续扩容的方案。

Fat Tree Topology

Fat Tree的优势在于架构灵活,可以平衡性能成本因素。
常见的设计可首先细分为无阻塞网络(non-blocking network)阻塞网络(blocking network)

1. 无阻塞网络

无阻塞网络拓扑最大的特点就是流量平衡,即IB交换机上联和下联的端口数相同。下图是一个典型的无阻塞IB网络拓扑。其中

  • 每台IB交换机36端口;
  • 一层(L1,类似接入层)每台交换机18个端口下联到节点,18个端口上联到二层;
  • 二层(L2,类似汇聚层)36个端口均用来下联L1交换机;
  • L1 18个端口中,按9+9分别上联到两台L2交换机;
  • L2 36个端口中,相同的每个L1交换机9条上联占满36端口;
  • 总体上,这个架构可支持:4台L1 * 18端口/台 = 72台设备IB接入

更多架构案例可以参考下图来源链接:
Designing an HPC Cluster with Mellanox InfiniBand Solutions
图片来源:https://community.mellanox.com/s/article/designing-an-hpc-cluster-with-mellanox-infiniband-solutions

2. 阻塞网络

设想,当你有小于36台设备需要互联,你可以使用一台独立的36端口IB交换机即可;当你的互联设备超过了36台(比如在36~72之间),若仍需要实现non-blocking,你就需要使用上面图片里的方案,这样你需要采购的36端口交换机就由1台直接变为了6台(擦汗…)。
(当然你也可以选择端口更多的IB交换机,但这就涉及到了Mellanox产品线的问题,我们这里暂不考虑)

因此,对于小/中型规模HPC集群,考虑到无阻塞网络的性价比较低(成本高),通常我们会考虑阻塞网络(blocking network)。这里我们举两个栗子:

栗子1:48节点方案

  • 当节点数在36~48节点之间
  • 使用2台36端口IB交换机
  • 每台交换机24端口下联到节点,两台之间互联12端口
  • 最多支持2 * 24 = 48端口设备互联

图片来源:https://community.mellanox.com/s/article/designing-an-hpc-cluster-with-mellanox-infiniband-solutions很明显,这种架构会在两台交换机分别直连的设备产生网络通信时,性能无法像non-blocking一样完全没有阻塞。
这种架构的阻塞比(blocking ratio)为1:2

栗子2:72节点方案

  • 当节点数在48~72节点之间
  • 使用5台36端口IB交换机
  • 每台交换机24端口下联到节点,12端口上联到两台L2交换机
  • 不同的是,12条上联先分别连到2台L2交换机(每台6条)
  • 最多支持3 * 24 = 72端口设备互联
  • 同时,两台L2 IB交换机可以起到高可用(HA)的作用

在这里插入图片描述这种架构的阻塞比(blocking ratio)仍为1:2

那么问题来了,既然blocking和non-blocking存在性能差异,那性能到底能差多少,应该怎么选?
答案你可能会似曾相识:看具体应用。
确实,网络拓扑由很多选择,non-blocking,blocking(75%,50%…),但具体选哪种还是取决于上层应用。对于网络带宽和网络延时很敏感的应用,non-blocking当然是优先的选择;但是,当考虑到性价比,并且上层多种应用特性不一的情况下,blocking架构还是很推荐的,所以还要取决于应用的benchmark和架构师的经验啦😏!

好了,今天就写这么多,下次我们重点来说下这个配置工具中不同的网络速率(FDR,EDR,HDR,etc.)

传送门:Mellanox Infiniband 架构设计快速实战指南 - B

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
1 设备管理 6 1.1 交换机登录 6 1.2 打开其它访问权限 6 1.3 恢复到出厂设置 6 1.4 文件系统操作 7 1.5 上传系统软件到交换机 7 1.6 重启交换机 8 1.7 保存交换机配置 9 1.8 显示交换机所有配置 9 2 配置以太网端口 10 2.1 配置以太网端口指南 10 2.3 启用和关闭一个端口 10 2.4 启用和关闭流控 11 2.5 验证以太网端口配置 11 3 管理源学习(Managing Sourcing learning) 12 3.1 MAC 地址表项配置例子 12 3.2 显示MAC 地址表信息 13 4 配置 VLAN(Configure VLAN) 13 4.1 VLAN 配置举例 13 4.2 创建/修改VLAN 14 4.3 定义 VLAN 端口分配 15 4.4 修改端口的缺省 VLAN 配置 15 4.5 打开/关闭一个 VLAN 生成树 15 4.6 配置 VLAN 路由网关地址(Ip interface) 16 4.7、配置端口隔离 16 5 配置802.1Q 18 5.1 打开端口的标记(tag) 18 5.2 打开链路聚合的标记(tagging) 18 5.3 配置端口数据帧类型 18 5.4 显示802.1Q 信息 19 5.5 802.1Q 配置实例 19 6 配置静态链路聚合 21 6.1 创建静态聚合 21 6.2 删除静态链路聚合 22 6.3 添加/删除静态链路聚合中的端口 22 6.4 激活/关闭静态链路聚合状态 22 6.5 显示静态链路聚合配置和统计信息 22 7 配置动态链路聚合 23 7.1 创建动态聚合 23 7.2 删除动态链路聚合组 24 7.3 添加/删除动态链路聚合中的端口 24 7.4 激活/关闭动态链路聚合状态 25 7.5 显示动态链路聚合配置和统计信息 25 7.6 LACP 配置实例 26 8 配置IP 27 8.1 IP 转发快速配置 27 8.2 创建静态路由 28 8.3 创建缺省路由 29 8.4 创建 ARP 29 8.5 使用PING 命令 29 8.6 使用Trceroute 命令 30 8.7 查看IP 配置 30 9 配置RIP 31 9.1、RIP简介 31 9.2、RIP 默认配置 31 9.3、RIP 典型配置 31 9.4、RIP具体配置 32 9.4.1、启用RIP 32 9.4.2、创建RIP 端口 33 9.4.3、启用RIP 端口 33 9.4.4、配置RIP 端口的发送版本 33 9.4.5、配置RIP 端口的接收版本 33 9.4.6、配置RIP 端口Metric 34 9.5、RIP选项 34 9.5.1、配置RIP 抑制时间 34 9.5.2、配置RIP主机路由 35 9.5.3、RIP 路由再分配 35 9.6、RIP安全 36 9.6.1、配置认证类型 36 9.6.2、配置密码 36 9.7、查看RIP 配置 37 10配置VRRP 38 10.1、VRRP 默认配置 38 10.2、VRRP 典型配置 38 10.3、VRRP具本配置 39 10.3.1、基本虚拟路由器配置 39 10.3.2、创建虚拟路由器 39 10.3.3、给虚拟路由器分配IP地址 39 10.3.4、配置虚拟路由器的优先级 40 10.3.5、设置虚拟路由器的占先 40 10.3.6、设置VRRP 认证 40 10.3.7、禁用和启用虚拟路由器 41 10.3.8、查看VRRP 配置 41 11、配置OSPF 42 11.1、OSPF默认配置 42 11.2、OSPF典型配置 43 11.3、OSPF具体配置 44 11.3.1、加载OSPF 44 11.3.2、启用OSPF 44 11.3.3、创建OSPF 端口 44 11.3.4、启用OSPF 端口 44 11.3.5、配置OSPF 端口进入OSPF域 45 11.3.6、OSPF路由再分配 45 11.3.7、OSPF安全 46 11.3.8、查看OSPF 配置 47 12 配置IP组播 47 12.1 IP组播简介 47 12.1、IP 组播默认配置 48 12.2、配置IPMS 48 12.2.1、在交换机上启用和禁用IPMS 48 12.2.2、配置和恢复IGMP版本 49 12.2.3、配置和删除静态邻居 49 12.3、更改IPMS 配置 50 12.3.1、更改IGMP询问时间间隔 50 12.3.2、更改IGMP最后成员询问时间间隔 50 12.3.3、更改IGMP询问响应时间间隔 51 12.2.4、启用和禁用IGMP询问 51 12.4、查看IPMS 配置和状态 51 13 配置DHCP 中继(Relay) 52 13.1 Per-VLAN DHCP 53 13.2 查看DHCP 中继配置 53 14 配置QoS 53 14.1 配置总体QoS 参数 54 14.2 配置QoS 端口参数 54 14.3 创建策略 55 14.4 查看策略配置 57 15 配置访问控制列表(ACLs) 57 15.1 ACL 快速配置 57 15.2 ACL 配置步骤 58 15.3查看ACL 配置 59 15.4 ACL 配置实例 59 16、设置服务器负载均衡SLB 61 17、sFlow配置 62 18、配置端口镜像 63 19、配置802.1X 63 19.1、802.1X 典型配置 63 19.2、802.1x再认证 64 19.3、设置802.1X 交换机参数 64 20、阿尔卡特网络管理软件 66 20.1 网络管理快速配置 66 20.2 网络管理软件快速使用 67 21阿尔卡特OmniStack 6200 操作命令 67 21.1 交换机管理登录 67 21.2 打开其它访问权限 67 21.3 Vlan 配置 68 21.4 802.1Q配置 68 21.5 具体案例配置 69 21.6 访问控制列表(ACL) 70 21.7 开启交换机网管功能 70 121.8 OmniStack 6200保存配置 70 21.9 OmniStack 6200堆叠功能 71

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值