自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 摩尔线程S4000国产信创计算卡性能实战——Pytorch转译,多卡P2P通信与MUSA编程

MTT S4000 是基于摩尔线程曲院 GPU 架构打造的全功能元计算卡,为千亿规模大语言模型的训练、微调和推理进行了定制优化,结合先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力,助力人工智能、图形渲染、多媒体、科学计算与物理仿真等复合应用场景的计算加速。MTT S4000 全面支持大语言模型的预训练、微调和推理服务,MUSA 软件栈专门针对大规模集群的分布式计算性能进行了优化,适配主流分布式计算加速框架, 包括 DeepSpeed, Colossal AI,Megatron 等,支

2025-05-23 17:42:47 1430

原创 字节跳动EthLink互联技术

EthLink(Ethernet Link)是字节跳动自研的 Scale-up 网络协议,为 GPU 集 群提供高速互联网络通道,同时承载 GPU 发起的 Load/Store 语义和 RDMA 语义。如下图所示, EthLink 网络范围覆盖了 GPU 服务器内部互联和跨机的GPU 互联。

2025-05-06 11:50:30 689

原创 NVIDIA 5090 FP8 CUDA 手搓性能测试脚本详解

此 CUDA 程序借助 FP8 数据格式开展矩阵乘法运算,并且对其性能进行测试。核函数:实现矩阵乘法。矩阵初始化函数:对矩阵进行随机初始化。性能测试函数:测量矩阵乘法的执行时间。命令行参数解析函数:解析命令行输入的矩阵维度和测试轮数。主函数:调用上述函数,输出性能测试结果。将 __nv_fp8_e4m3 定义为 fp8_t,方便后续代码使用。__nv_fp8_e4m3 是 NVIDIA 定义的一种 FP8 数据格式,采用 4 位指数和 3 位尾数。具体数据格式可以参考如下文档。

2025-04-15 11:16:45 988 1

原创 NVIDIA RTX 5090 32G PCIE互联带宽测试,Llamafactory模型训练,vllm、trtllm模型推理性能测试

从nvidia官方cuda仓库中,可以下载到cudasamples(但是不能安装最新的12.8,只能装12.4,12.8实测在12.8.96驱动中编译不通过)由于5090属于sm120,在目前cuda12.8中的nccl仍对其有支持上的问题,因此需要手动重新编译安装最新版的NCCL通信库。可以看到峰值能来到50Gb/s左右,比就算4090开启了P2P后的性能也快了一倍左右。安装完成后,可以通过安装nccl-tesl来测试安装是否正确。devicequery结果。PCIE 5.0 平台。

2025-04-15 09:49:22 611

原创 开放网络交换机系统SONiC与ONIE安装环境的常用命令

ONIE,即开放网络安装环境,它在网络设备领域扮演着关键角色。作为一种特殊的引导加载程序,ONIE被广泛应用于众多开放式网络交换机内。其核心功能在于助力网络操作系统(NOS)的安装与启动,同时也能处理其他各类软件镜像。在实际应用场景中,当网络工程师需要部署新的网络操作系统,或是对现有系统进行升级、更换软件镜像时,ONIE便发挥作用。它能提供一个标准化、便捷的操作环境,让相关的安装和引导流程更加顺畅,极大地提升了网络设备管理与维护的效率,为构建稳定、高效的网络架构奠定了基础。

2025-04-02 16:30:04 676

原创 Nvidia GH200 概述和设置与多节点 GH200 NCCL

内存速度不同,芯片也不同。如果模型太大,无法放入 2 个 GPU 的内存中,但您又不想使用 NUMA 降低其速度,则可以使用架构技巧有效地将服务器拆分为 2 个独立的推理节点,并在它们之间创建一个射线集群。还值得注意的是,它选择了 DMA-BUF(而不是传统的“nvidia-peermem”),这是直接内存访问的默认选择,并在较新的内核中受支持。需要了解的主要一点是,在运行时,它会尝试找到用于 GPU 间通信的最佳路径和结构,并在您在应用程序中调用它时设置所有内容(包括环或树、RDMA 等)。

2025-03-17 16:47:51 868

原创 NVIDIA H20-3e 141G Docker LLaMA Factory 训练与vllm 推理实战:解锁 Qwen2.5-14B 与 DeepSeek-R1-FP8 671B 的性能潜力

本文深度解析基于 NVIDIA H20-3e 141G GPU 的 AI 开发全流程,重点呈现其相比前代 H20 在硬件架构、显存容量(141GB vs 96GB)及计算效率上的跨越式升级。通过 LLaMA Factory 框架实现 Qwen2.5-14B 模型的监督微调(SFT)训练,结合 Transformer 引擎与多实例 GPU 技术,突破传统显存限制,实现混合精度训练吞吐量提升。在推理环节,vllm 引擎借助 H20-3e 的 FP8 计算核心与更快的 NVLink 互联,使 DeepSeek-R

2025-03-16 04:58:39 2130

原创 NVIDIA RTX4090 在Ubuntu系统中开启P2P peer access 直连访问

在人工智能计算、科学模拟和高性能计算领域,多GPU协同工作已成为突破算力瓶颈的必然选择。以NVIDIA RTX 4090为例,这款基于Ada Lovelace架构的旗舰GPU拥有24GB GDDR6X显存和高达1TB/s的显存带宽,但当面对需要多卡协同的大型深度学习模型训练(如LLM大语言模型)或超大规模流体力学仿真时,传统的多GPU通信架构会暴露显著性能瓶颈。这就是我们需要引入P2P(Peer-to-Peer)直连访问的核心动因。

2025-03-07 17:35:51 2461 5

原创 如何使用昇腾Ascend 300I Pro 310P芯片 单卡运行DeepSeek-R1-Distilled-Qwen-7B

基于昇腾310P芯片的Ascend 300I Pro推理卡是华为推出的一款高性能AI推理加速卡,专为数据中心和边缘计算场景设计。

2025-03-05 18:24:10 4974 4

原创 如何点亮你的CXL2.0内存拓展设备——基于Asteralabs与澜起 Type3 CXL设备的安装与性能测试实战

ComputeExpressLink(CXL)是一种动态的多协议技术,其设计初衷是为了给加速器和内存设备提供支持。它提供了一套完备而丰富的协议集,其中包含了多种不同的语义协议。例如,CXL.io具有类似于PCIe的I/O语义,在整个系统中扮演着至关重要的角色,它是实现设备发现、枚举操作、错误报告以及主机物理地址(HPA)查找的必备协议。

2025-01-18 00:24:21 1222

原创 昇腾 Profiling 性能调优工具 Ascend PyTorch Adaptor 使用

AscendPyTorchProfiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入AscendPyTorchProfiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。AscendPyTorchProfiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用。

2024-12-06 16:11:31 1273

原创 昇腾910B ATLAS 300 A2 计算卡开箱检验与集群通信使能指南

昇腾910B通过卡上AICPU内置的NIC与集群中的其他卡进行通信,其中通信协议是,集合通信库( Huawei Collective Communication Library ,简称HCCL)是基于昇腾硬件的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。HCCL支持AllReduce、Broadcast、Allgather、ReduceScatter、AlltoAll等通信原语,Ring、Mesh、HD等通信算法,在HCCS、RoCE和PCIe高速链路实现集合通信。

2024-11-29 15:42:16 3996 4

原创 高通QCM6490开发板与aidlux系统使用

2024-07-10 23:33:35 1145

原创 华为 ALTAS300I model3010 AI NPU Ubuntu驱动安装指南

由于最近项目上需要用到华为的ATLAS加速卡,但是最新的300I PRO价格已经来到了7000元左右,而300Tpro与300T A2的价格更是来到了可望而不可即的五位数与六位数,于是便选择上一代版本的ATLAS300I 作为测试样品,而其二手价格虽然闲鱼上标价有高有低,但实际上2000以内就能拿下。需要注意的是,ATLAS300I model3000 以及没有标注model的型号均为早期版本,仅支持鲲鹏系列服务器,原因如下。

2024-03-23 00:17:04 2841

原创 Mellanox网卡常用命令(固件,状态,线缆与模块)

显示当前链路状态,网卡支持速率(IB或ETH),线缆支持速率,以及当前连接opcode与故障提示。修改网卡的工作模式:(第2个网口是P2,仅适用于cx6及以前的卡,不适用于CX7)mlxlink 详细用法,可以更改接口速率,状态,与读取或写入线缆eeprom。需要修改的mac地址 sg 修改网卡的mac地址,详情看另一篇专栏。查询网卡固件具体名称,固件介绍与各种软件上的详细信息。显示DAC或者光模块的制造商信息,光功率,模块功耗。查询所有网卡的详细固件介绍与固件版本。读取线缆或模块的全部eeprom参数。

2023-11-09 03:47:42 9480 8

原创 Mellanox connectx 网卡更改mac地址,适用于4/5/6/7代网卡

如图,笔者最近手头搞了几个坏掉的mellanox connectx-6Dx mcx623106以太网网卡,在进行一些列修复与刷机过程后,发现无论刷新哪个版本的固件,该网卡的固件都会强制将mac恢复到最初的0000000BBB11与0000000BBB12(如下图所示)此时,只能在系统里修改网卡当前的运行mac地址,而在更换机器后该地址就会被清除(例如在windows资源管理器的配置文件中修改的mac地址)。因此,在经过一系列的尝试过后,笔者发现了一个更改以及清除original mac的方法。

2023-10-10 20:51:05 1704 3

原创 ubuntu22.04安装HUAWEI DevEco Device Tool时出现python-venv install failed报错

【代码】ubuntu22.04安装HUAWEI DevEco Device Tool时出现python-venv install failed报错。

2023-03-15 21:30:03 3471 5

原创 被收购前的最后荣光——200G Mellanox QM8700 Infiniband 交换机简评

水之积也不厚,则其负大舟也无力,如果将高性能计算、机器学习、大数据、云、web 3.0 、存储平台等应用看作“舟”,那InfiniBand网络无疑是承载这些大舟的水。随着数据的爆发式增长,这些应用对网络带宽、延时、效率的要求不断提升,面对这些挑战,NVIDIA也相继推出InfiniBand 100G EDR、200G HDR以及400G NDR的解决方案。而与QM8700/8790正是其中属于HDR 200G的交换机。

2023-02-27 16:44:27 2033 1

原创 市面主流100G白盒交换机/裸机交换机评鉴指南

关于二手市场上大量流通的白盒交换机进行背景调查,主流各家的机器图片与配置展示以及相关价格的推荐

2023-02-01 00:13:25 3823

原创 比较稳妥的荣品 rk3399刷机,顺便解决无法进入刷入系统问题以及短接针脚刷机麻烦的问题

荣品RK3399开发板刷机全流程

2023-01-30 23:28:57 15937 7

原创 Mellanox SX6036 40G/56G IB/以太网交换机基础配置以及开启web管理

简单开启SX6036的web页面

2022-12-01 23:16:31 7185 2

原创 Ubuntu下利用ipmitool工具解决IPMI(基于openbmc)的web页面崩溃或出现session expired的问题

如何利用Iipmitool解决IPMI web页面崩溃与bmc问题

2022-11-20 23:26:52 4820

原创 UBLOX F9P 高精度GNSS定位板卡的基准站,流动站设置与简单的短基线单主机双模块RTK设置

一个比较细节的关于高精度GNSS模块的入门教程

2022-08-09 12:33:21 4366 14

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除