- 博客(23)
- 收藏
- 关注
原创 摩尔线程S4000国产信创计算卡性能实战——Pytorch转译,多卡P2P通信与MUSA编程
MTT S4000 是基于摩尔线程曲院 GPU 架构打造的全功能元计算卡,为千亿规模大语言模型的训练、微调和推理进行了定制优化,结合先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力,助力人工智能、图形渲染、多媒体、科学计算与物理仿真等复合应用场景的计算加速。MTT S4000 全面支持大语言模型的预训练、微调和推理服务,MUSA 软件栈专门针对大规模集群的分布式计算性能进行了优化,适配主流分布式计算加速框架, 包括 DeepSpeed, Colossal AI,Megatron 等,支
2025-05-23 17:42:47
1430
原创 字节跳动EthLink互联技术
EthLink(Ethernet Link)是字节跳动自研的 Scale-up 网络协议,为 GPU 集 群提供高速互联网络通道,同时承载 GPU 发起的 Load/Store 语义和 RDMA 语义。如下图所示, EthLink 网络范围覆盖了 GPU 服务器内部互联和跨机的GPU 互联。
2025-05-06 11:50:30
689
原创 NVIDIA 5090 FP8 CUDA 手搓性能测试脚本详解
此 CUDA 程序借助 FP8 数据格式开展矩阵乘法运算,并且对其性能进行测试。核函数:实现矩阵乘法。矩阵初始化函数:对矩阵进行随机初始化。性能测试函数:测量矩阵乘法的执行时间。命令行参数解析函数:解析命令行输入的矩阵维度和测试轮数。主函数:调用上述函数,输出性能测试结果。将 __nv_fp8_e4m3 定义为 fp8_t,方便后续代码使用。__nv_fp8_e4m3 是 NVIDIA 定义的一种 FP8 数据格式,采用 4 位指数和 3 位尾数。具体数据格式可以参考如下文档。
2025-04-15 11:16:45
988
1
原创 NVIDIA RTX 5090 32G PCIE互联带宽测试,Llamafactory模型训练,vllm、trtllm模型推理性能测试
从nvidia官方cuda仓库中,可以下载到cudasamples(但是不能安装最新的12.8,只能装12.4,12.8实测在12.8.96驱动中编译不通过)由于5090属于sm120,在目前cuda12.8中的nccl仍对其有支持上的问题,因此需要手动重新编译安装最新版的NCCL通信库。可以看到峰值能来到50Gb/s左右,比就算4090开启了P2P后的性能也快了一倍左右。安装完成后,可以通过安装nccl-tesl来测试安装是否正确。devicequery结果。PCIE 5.0 平台。
2025-04-15 09:49:22
611
原创 开放网络交换机系统SONiC与ONIE安装环境的常用命令
ONIE,即开放网络安装环境,它在网络设备领域扮演着关键角色。作为一种特殊的引导加载程序,ONIE被广泛应用于众多开放式网络交换机内。其核心功能在于助力网络操作系统(NOS)的安装与启动,同时也能处理其他各类软件镜像。在实际应用场景中,当网络工程师需要部署新的网络操作系统,或是对现有系统进行升级、更换软件镜像时,ONIE便发挥作用。它能提供一个标准化、便捷的操作环境,让相关的安装和引导流程更加顺畅,极大地提升了网络设备管理与维护的效率,为构建稳定、高效的网络架构奠定了基础。
2025-04-02 16:30:04
676
原创 Nvidia GH200 概述和设置与多节点 GH200 NCCL
内存速度不同,芯片也不同。如果模型太大,无法放入 2 个 GPU 的内存中,但您又不想使用 NUMA 降低其速度,则可以使用架构技巧有效地将服务器拆分为 2 个独立的推理节点,并在它们之间创建一个射线集群。还值得注意的是,它选择了 DMA-BUF(而不是传统的“nvidia-peermem”),这是直接内存访问的默认选择,并在较新的内核中受支持。需要了解的主要一点是,在运行时,它会尝试找到用于 GPU 间通信的最佳路径和结构,并在您在应用程序中调用它时设置所有内容(包括环或树、RDMA 等)。
2025-03-17 16:47:51
868
原创 NVIDIA H20-3e 141G Docker LLaMA Factory 训练与vllm 推理实战:解锁 Qwen2.5-14B 与 DeepSeek-R1-FP8 671B 的性能潜力
本文深度解析基于 NVIDIA H20-3e 141G GPU 的 AI 开发全流程,重点呈现其相比前代 H20 在硬件架构、显存容量(141GB vs 96GB)及计算效率上的跨越式升级。通过 LLaMA Factory 框架实现 Qwen2.5-14B 模型的监督微调(SFT)训练,结合 Transformer 引擎与多实例 GPU 技术,突破传统显存限制,实现混合精度训练吞吐量提升。在推理环节,vllm 引擎借助 H20-3e 的 FP8 计算核心与更快的 NVLink 互联,使 DeepSeek-R
2025-03-16 04:58:39
2130
原创 NVIDIA RTX4090 在Ubuntu系统中开启P2P peer access 直连访问
在人工智能计算、科学模拟和高性能计算领域,多GPU协同工作已成为突破算力瓶颈的必然选择。以NVIDIA RTX 4090为例,这款基于Ada Lovelace架构的旗舰GPU拥有24GB GDDR6X显存和高达1TB/s的显存带宽,但当面对需要多卡协同的大型深度学习模型训练(如LLM大语言模型)或超大规模流体力学仿真时,传统的多GPU通信架构会暴露显著性能瓶颈。这就是我们需要引入P2P(Peer-to-Peer)直连访问的核心动因。
2025-03-07 17:35:51
2461
5
原创 如何使用昇腾Ascend 300I Pro 310P芯片 单卡运行DeepSeek-R1-Distilled-Qwen-7B
基于昇腾310P芯片的Ascend 300I Pro推理卡是华为推出的一款高性能AI推理加速卡,专为数据中心和边缘计算场景设计。
2025-03-05 18:24:10
4974
4
原创 如何点亮你的CXL2.0内存拓展设备——基于Asteralabs与澜起 Type3 CXL设备的安装与性能测试实战
ComputeExpressLink(CXL)是一种动态的多协议技术,其设计初衷是为了给加速器和内存设备提供支持。它提供了一套完备而丰富的协议集,其中包含了多种不同的语义协议。例如,CXL.io具有类似于PCIe的I/O语义,在整个系统中扮演着至关重要的角色,它是实现设备发现、枚举操作、错误报告以及主机物理地址(HPA)查找的必备协议。
2025-01-18 00:24:21
1222
原创 昇腾 Profiling 性能调优工具 Ascend PyTorch Adaptor 使用
AscendPyTorchProfiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入AscendPyTorchProfiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。AscendPyTorchProfiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用。
2024-12-06 16:11:31
1273
原创 昇腾910B ATLAS 300 A2 计算卡开箱检验与集群通信使能指南
昇腾910B通过卡上AICPU内置的NIC与集群中的其他卡进行通信,其中通信协议是,集合通信库( Huawei Collective Communication Library ,简称HCCL)是基于昇腾硬件的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。HCCL支持AllReduce、Broadcast、Allgather、ReduceScatter、AlltoAll等通信原语,Ring、Mesh、HD等通信算法,在HCCS、RoCE和PCIe高速链路实现集合通信。
2024-11-29 15:42:16
3996
4
原创 华为 ALTAS300I model3010 AI NPU Ubuntu驱动安装指南
由于最近项目上需要用到华为的ATLAS加速卡,但是最新的300I PRO价格已经来到了7000元左右,而300Tpro与300T A2的价格更是来到了可望而不可即的五位数与六位数,于是便选择上一代版本的ATLAS300I 作为测试样品,而其二手价格虽然闲鱼上标价有高有低,但实际上2000以内就能拿下。需要注意的是,ATLAS300I model3000 以及没有标注model的型号均为早期版本,仅支持鲲鹏系列服务器,原因如下。
2024-03-23 00:17:04
2841
原创 Mellanox网卡常用命令(固件,状态,线缆与模块)
显示当前链路状态,网卡支持速率(IB或ETH),线缆支持速率,以及当前连接opcode与故障提示。修改网卡的工作模式:(第2个网口是P2,仅适用于cx6及以前的卡,不适用于CX7)mlxlink 详细用法,可以更改接口速率,状态,与读取或写入线缆eeprom。需要修改的mac地址 sg 修改网卡的mac地址,详情看另一篇专栏。查询网卡固件具体名称,固件介绍与各种软件上的详细信息。显示DAC或者光模块的制造商信息,光功率,模块功耗。查询所有网卡的详细固件介绍与固件版本。读取线缆或模块的全部eeprom参数。
2023-11-09 03:47:42
9480
8
原创 Mellanox connectx 网卡更改mac地址,适用于4/5/6/7代网卡
如图,笔者最近手头搞了几个坏掉的mellanox connectx-6Dx mcx623106以太网网卡,在进行一些列修复与刷机过程后,发现无论刷新哪个版本的固件,该网卡的固件都会强制将mac恢复到最初的0000000BBB11与0000000BBB12(如下图所示)此时,只能在系统里修改网卡当前的运行mac地址,而在更换机器后该地址就会被清除(例如在windows资源管理器的配置文件中修改的mac地址)。因此,在经过一系列的尝试过后,笔者发现了一个更改以及清除original mac的方法。
2023-10-10 20:51:05
1704
3
原创 ubuntu22.04安装HUAWEI DevEco Device Tool时出现python-venv install failed报错
【代码】ubuntu22.04安装HUAWEI DevEco Device Tool时出现python-venv install failed报错。
2023-03-15 21:30:03
3471
5
原创 被收购前的最后荣光——200G Mellanox QM8700 Infiniband 交换机简评
水之积也不厚,则其负大舟也无力,如果将高性能计算、机器学习、大数据、云、web 3.0 、存储平台等应用看作“舟”,那InfiniBand网络无疑是承载这些大舟的水。随着数据的爆发式增长,这些应用对网络带宽、延时、效率的要求不断提升,面对这些挑战,NVIDIA也相继推出InfiniBand 100G EDR、200G HDR以及400G NDR的解决方案。而与QM8700/8790正是其中属于HDR 200G的交换机。
2023-02-27 16:44:27
2033
1
原创 Ubuntu下利用ipmitool工具解决IPMI(基于openbmc)的web页面崩溃或出现session expired的问题
如何利用Iipmitool解决IPMI web页面崩溃与bmc问题
2022-11-20 23:26:52
4820
原创 UBLOX F9P 高精度GNSS定位板卡的基准站,流动站设置与简单的短基线单主机双模块RTK设置
一个比较细节的关于高精度GNSS模块的入门教程
2022-08-09 12:33:21
4366
14
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人