自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爱串门的小马驹博客

分布式,通信,ai大模型,人工智能框架,大规模集群学习分享

  • 博客(24)
  • 收藏
  • 关注

原创 RDMA通信2:一张图了解 RDMA基本元素和组成 通信过程元素关系解析 视频教程

哈哈哈,今天我们把下面RDMA这张图理解了,我们的任务就完成了!一、WQ和WQE 三、CQ和CQN 四、WR和WC 二、QP和QPN。1、用户(应用程序)下发个工作请求WR12、WR1在驱动层被映射为工作队列元素WQE1,放入发送队列SQ中,让硬件去完成任务。3、硬件完成任务,返回完成队列元素CQE1,放入完成队列CQ0。4、CQE1在用户层被映射为工作完成WC1,通知用户(应用程序)任务完成。

2024-06-30 16:51:41 368

原创 博士最多8年?硕士6年清退?

对于“因研究未结束而无法正常毕业的博士”,目前高校可以按规定统筹利用科研经费、学费收入、社会捐助等资金,设置研究生“助教、助研和助管”岗位,并提供相应津贴,三是修订《普通高等学校学生管理规定》,将明确规定“学校可实行灵活的学习制度,对休学创业的学生,可以在规定的。并简化批准程序”“休学创业后复学的学生,因自身情况需要转专业的,学校同等条件下,应当优先考虑”。哈哈哈,我说读博18年,虽然是纯属虚构的人生经历,但是。哈哈哈,教育部可没说过博士最多八年,教育部说的是。中南财经政法大学章程修正案。

2024-06-28 21:23:27 206

原创 Booksim2源码分析1:核心函数调用逻辑 NoC片上网络模拟 含视频教程

BookSim2源码解读,详解。哈哈哈,我们就从main函数开始,看看BookSim2都调用了哪些核心函数。

2024-06-25 16:55:49 164

原创 BookSim2 安装步骤教程 Network-on-Chips (NoCs) 片上网络模拟器 含视频

BookSim2 一个用于Network-on-Chips (NoCs) 芯片上网络的周期精确模拟器。该模拟器的设计是为了实现网络组件的模拟灵活性和精确建模。BookSim1 是一个通用的网络模拟器,并不专门针对片上环境。不支持在片上网络环境中提出的一些更先进的功能和拓扑结构。

2024-06-23 08:51:06 281

原创 VirtualBox 主机和虚拟机间直接复制粘贴设置 安装增强功能报错解决Could not mount the media/drive ‘D:\vmbox\VBoxGuestAdditions.i

安装增强功能 报错解决Could not mount the media/drive ‘D:\vmbox\VBoxGuestAdditions.iso’

2024-06-22 21:22:45 329 1

原创 Ubuntu iso 镜像下载 步骤截图说明

Linux如果需要下载其它版本,点击check out our alternative Downloads。(下载时会弹出,Sign up for our newsletter,不用管,也能下载)后续点击Downloadload 24.04 LTS直接下载就行。3、点击Download Ubuntu Desktop。2、点击Get Ubuntu。下面就是等待下载完成。

2024-06-22 07:14:44 259

原创 RMDA通信1:通信过程和优势,以太网socket为何用户空间拷贝到内核空间

RDMA硬件要求,以太网socket通信的缺点,RDMA的优点,太网socket通信过程,缺点,为啥要从用户空间拷贝到内核空间。因此需要将数据由物理地址不联系的用户空间,拷贝到物理地址连续的内核空间,让网卡访问连续地址空间的主机内存空间。

2024-06-21 07:18:34 391

原创 NCCL的不足,集合通信库初步调研 NCCL、BCCL、TCCL、ACCL、HCCL

不同厂商的集合通信库,就是针对他们网络或者硬件的定制化集合通信。已达到。百度和腾讯是明确说,基于NCCL扩展,也就是改的NCCL代码,或者在NCCL上加了些东西。但是阿里和华为没有明确说,可能是重写的一套。

2024-06-17 23:03:46 1576 2

原创 NCCL源码解读5:拓扑识别感知整体思路总览

依据物理拓扑结构,来进行通信,可达到性能更优,这也是Nvidia NCCL的核心功能。NCCL拓扑识别的整体思路:1、物理拓扑构建2、通信路径计算(每个GPU/网卡到其它GPU,网卡的最优路径。)3、逻辑拓扑构建(通信通道检索)哈哈哈,整体思路是不是特别简单。就是先获取物理拓扑图,然后计算通信路径(方便逻辑拓扑构建),根据通信路径构建逻辑拓扑,例如ring,tree逻辑拓扑,指明哪个GPU和哪个GPU通信。

2024-06-17 21:31:02 238 3

原创 模型计算量估计,训练时间预测 Scaling Laws for Neural Language Models

其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。activati注意:这里的算力利用率是整个训练过程中的算力利用率,有的地方的算力利用率是计算的时候的算力利用率,不考虑纯通信和集群故障。其中C表示训练语言模型所需的总计算量,S表示训练模型所用集群的算力,MFU(Model FLOPs Utilization)训练模型时的算力利用率。activation checkpoint

2024-06-16 10:52:37 461

原创 Nvidia NCCL名词术语解释说明汇总

是NCCL中的一个插件,用户可自定义通信方式。例如自定义在网计算(in-network computing) SHARP,在通信过程中就进行数据融合,例如Allreduce时,在交换机上就完成数据的加法操作,后续就传递加和的结果,不需要再传递需要所有要加的原始数据,减少需要通信的数据量。:GPU如果和跨NUMA的NIC网卡通信的话,会过CPU。NVB 连接是针对非 NVSwitch 系统的优化,其中使用GPU的内存来进行GPU之间的P2P通信,这些GPU不是通过NVLink直接连接的。节点内,即服务器内。

2024-06-04 21:13:18 486 2

原创 NCCL源码详解4:bootstrapInit()引导网络bootstrap网络连接建立 视频教程

Nvidia NCCL bootstrapInit()利用已知的根节(rank0)网络地址(从而获得ncclUniqueId中包含的rank0的网络地址),建立一个环形网络,allgather获取所有rank的信息。

2024-06-04 21:11:58 1084

原创 万卡(大规模)集群训练平台设计方案:集群容错、分布式方案、算法优化、通信加速、数据加载、底层 MegaScale: Scaling Large Language Model Training 视频教程

1.1 万卡训练集群出现原因、挑战、设计思路、考虑因素;1.2 万卡训练大语言模型LLM训练优化,并行注意力、滑动窗口;1.3 万卡分布式训练,ZeRO数据并行优化 1.6 通信与数据加载并行数据加载优化,消除多余加载器,数据加载通信并行

2024-05-30 19:16:56 919

原创 NCCL源码详解3:通信器初始化ncclCommInitRank() 含视频教程

NCCL源码解析解读分析,ncclCommInitRank()根据rank号和CUDA设备uniqueID等,完成NCCL通信器初始化。ncclCommInitRankDev()使用 ncclAsyncLaunch 异步启动 ncclCommInitRankFunc 函数来初始化通信。 异步启动通信器初始化ncclCommInitRankFunc()

2024-05-24 20:06:16 873

原创 DeepSpeed与Megatron的区别和联系

毕竟Megatron是Nvidia亲儿子,底层优化信手拈来。DeepSpeed数据并行相比于Megatron做的更牛逼。分布式人工智能框架

2024-05-18 08:06:41 1240

原创 NCCL源码详解2:通信初始化如何获取唯一ID UniqueId,ncclGetUniqueId()中ncclInit()、bootstrapGetUniqueId()包含视频教程

NCCL 视频教程 源码解读 获取唯一ID UniqueId,ncclGetUniqueId()和其调用的ncclInit()和bootstrapGetUniqueId() NCCL源码解析解读分析,

2024-05-18 06:20:05 1098

原创 NCCL源码详解1:NCCL官网使用/调用案例 Example : One Device per Process or Thread包含视频教程

NCCL源码解析解读分析,rank0获取NCCL通信组ID,并通过MPI_Bcast广播给其它rank;借助MPI获取的这些信息NCCL完成初始化,并进行集合通信。

2024-05-11 21:10:00 534

原创 DeepSpeed和Megatron如何调用NCCL通信后端源码解读

原本准备看一下DeepSpeed如何对接使用NCCL的,如何初始化通信后端的,没想到。瞬间傻在原地。

2024-05-10 20:29:27 620

原创 集合通信算法源码解读视频教程 Open MPI 5.0,NCCL可参考

NCCL、MPI中有各种各样的集合通信原语/接口,像Broadcast、Allreduce、reduce、allgather、scatter、alltoall、gather、reducescatter等。每个集合通信原语,都有多套算法实现。例如Broadcast,由于应用场景的不同,参与通信的通信实体数量,每次发送的数据量各不相同等,导致难以有一种集合通信算法在各种条件下都是最优的,因此出现了一个集合通信原语,有多套集合通信算法实现。

2024-05-04 09:19:58 215

原创 VLLM推理框架PagedAttention出现的原因 核心思想 视频教程 加速大语言模型推理过程,提升推理速度,减少key value缓存和重复计算

利用分页/分块存储的思想,将一个长序列的key vlaue缓存,分成多个块进行存储。解决tokens序列长度未知,动态变化,连续存储的问题。降低显存占用,提升并行处理的序列数量,提高处理速度。 1.1 VLLM pageattention出现的原因 推理框架 Efficient Memory Management for Large Language_哔哩哔哩_bilibili1.2 Paged Attention VLLM核心思想 原理 推理框架_哔哩哔哩_bilibiliVLLM pagedattent

2024-05-03 10:16:39 188

原创 ZeRO++ 分布式数据并行 视频教程 《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》

ZeRO++ 数据并行出现的原因,和他的优化策略。并且介绍了数据并行 DP DDP ZeRO1 ZeRO2 ZeRO3。《ZeRO++: Extremely Efficient Collective Communication for Large Model Training》数据并行模型训练

2024-05-01 18:48:46 131 2

转载 VC6.0 MFC TabCtrol控件的用法

转载地址 https://www.cnblogs.com/VCdog/archive/2010/03/25/1694775.html说起这个控件,我还真的没有在我的工程中用过,不过我的同事用的比较多,后来我的一个知心朋友问起我这个控件的具体用法,于是我从头到尾看了一下这个控件,下面我把这个控件的具体用法给大家说一下,用这个控件的好处是,可以减少程序的排放空间,让用户操作也是很方便的,一幕了然,...

2018-09-08 22:06:54 1502

原创 C++转标准C 注意事项

1.标准C语言不支持类,C++中的类要更改成全局结构体和全局变量。在构造函数中初始化的变量,和析构函数中释放的变量要重新写函数来初始化和释放。2.C语言不支持new声明存储空间,        char *Ptr ;         Ptr = (char *)malloc(100 * sizeof(char)); free(Ptr ); AdjList (*list)[20] =...

2018-08-11 14:55:32 839

转载 Unity3D直线绘制

http://blog.csdn.net/dzyi_/article/details/22937349原文地址:http://www.xuanyusong.com/archives/561任何一个无规则曲线它都是有若干个线段组成,及时是圆形它也是又若干个线段组成的,也就是说将若干个线段拼接起来就是我们须要的无规则曲线~那么在3D 的世界中我们须要知道 X Y Z 三个点来确定一条3

2016-08-18 15:52:38 3142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除