自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 NVIDIA Xid Message与SXid Message调研

整体而言当GPU以及NVLINK出错时,硬件内部会产生错误信号由驱动收集组织成Xid错误码。而NVSWITCH内部报错由NVSWITCH的驱动程序收集组织成SXid的错误码。根据芯片模块的微架构,制定报错机制可以在遇到问题时定位根因。

2024-10-09 18:54:40 1026

原创 NCCL拓扑管理 - Connect模块

通过Search模块针对预设的拓扑进行搜索之后,可得到不同拓扑的通道以及每个通道涉及的GPU或者NET节点。Connect模块将这些节点根据逻辑拓扑类型连接起来,完成逻辑拓扑构建。

2024-07-25 12:16:28 804

原创 NCCL拓扑管理 - Search模块

NCCL Search模块从节点连接和节点路径构造完毕的系统拓扑中搜索出各类逻辑拓扑(如环拓扑,树拓扑等)的通道(每个拓扑可能有多个通道,通道间可以并行运行集合通信算法)和节点(GPU节点和NET节点)。后续的connect模块将这些搜索出来的通道和节点根据拓扑的类型构建起来。

2024-07-19 09:12:29 2038

原创 NCCL拓扑管理 - Path模块

NCCL Path模块提供接口为Topo模块产生的的系统拓扑图的节点提供路径初始化。Path模块使用贪心算法(构造最少跳数且最大带宽的路径)对系统拓扑图中每一个节点到其他节点的路径进行初始化,为后续Search模块的逻辑拓扑搜索做准备。

2024-07-10 21:01:38 430 1

原创 NCCL拓扑管理 - Topo模块

Topo模块提供系统拓扑的构建接口,依赖XML模块构建系统拓扑图,根据实际情况合并Peer的系统拓扑信息用以构造超级节点(GPU南向互联),增加节点之间的连接,为后续Path模块的路径初始化做准备。

2024-07-08 16:19:42 2316

原创 NCCL拓扑管理 - XML模块

NCCL使用XML作为物理拓扑图和逻辑拓扑图的底层表示形式,XML模块提供物理拓扑构和逻辑拓扑的构建,管理,以及序列化反序列化等接口。NCCL的物理拓扑主要便是通过该模块完成,其通过Linux sysfs接口和NVIDIA NVML接口构建单机的物理拓扑,提供XML图的合并接口和XML节点操作接口便于上层模块后续调整图结构和节点信息。

2024-07-03 12:05:46 963 2

原创 NCCL基础模块 - ncclSocket模块

NCCL ncclSocket模块分析。

2024-06-28 16:03:51 665

原创 NCCL启动机制 - Bootstrap

介绍NCCL Bootstrap过程。

2024-06-27 21:13:20 1853

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除