- 博客(8)
- 收藏
- 关注
原创 NVIDIA Xid Message与SXid Message调研
整体而言当GPU以及NVLINK出错时,硬件内部会产生错误信号由驱动收集组织成Xid错误码。而NVSWITCH内部报错由NVSWITCH的驱动程序收集组织成SXid的错误码。根据芯片模块的微架构,制定报错机制可以在遇到问题时定位根因。
2024-10-09 18:54:40 1026
原创 NCCL拓扑管理 - Connect模块
通过Search模块针对预设的拓扑进行搜索之后,可得到不同拓扑的通道以及每个通道涉及的GPU或者NET节点。Connect模块将这些节点根据逻辑拓扑类型连接起来,完成逻辑拓扑构建。
2024-07-25 12:16:28 804
原创 NCCL拓扑管理 - Search模块
NCCL Search模块从节点连接和节点路径构造完毕的系统拓扑中搜索出各类逻辑拓扑(如环拓扑,树拓扑等)的通道(每个拓扑可能有多个通道,通道间可以并行运行集合通信算法)和节点(GPU节点和NET节点)。后续的connect模块将这些搜索出来的通道和节点根据拓扑的类型构建起来。
2024-07-19 09:12:29 2038
原创 NCCL拓扑管理 - Path模块
NCCL Path模块提供接口为Topo模块产生的的系统拓扑图的节点提供路径初始化。Path模块使用贪心算法(构造最少跳数且最大带宽的路径)对系统拓扑图中每一个节点到其他节点的路径进行初始化,为后续Search模块的逻辑拓扑搜索做准备。
2024-07-10 21:01:38 430 1
原创 NCCL拓扑管理 - Topo模块
Topo模块提供系统拓扑的构建接口,依赖XML模块构建系统拓扑图,根据实际情况合并Peer的系统拓扑信息用以构造超级节点(GPU南向互联),增加节点之间的连接,为后续Path模块的路径初始化做准备。
2024-07-08 16:19:42 2316
原创 NCCL拓扑管理 - XML模块
NCCL使用XML作为物理拓扑图和逻辑拓扑图的底层表示形式,XML模块提供物理拓扑构和逻辑拓扑的构建,管理,以及序列化反序列化等接口。NCCL的物理拓扑主要便是通过该模块完成,其通过Linux sysfs接口和NVIDIA NVML接口构建单机的物理拓扑,提供XML图的合并接口和XML节点操作接口便于上层模块后续调整图结构和节点信息。
2024-07-03 12:05:46 963 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人