aosudh-CSDN博客

原创摩尔线程S4000国产信创计算卡性能实战——Pytorch转译，多卡P2P通信与MUSA编程

MTT S4000 是基于摩尔线程曲院 GPU 架构打造的全功能元计算卡，为千亿规模大语言模型的训练、微调和推理进行了定制优化，结合先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力，助力人工智能、图形渲染、多媒体、科学计算与物理仿真等复合应用场景的计算加速。MTT S4000 全面支持大语言模型的预训练、微调和推理服务，MUSA 软件栈专门针对大规模集群的分布式计算性能进行了优化，适配主流分布式计算加速框架，包括 DeepSpeed， Colossal AI，Megatron 等，支

2025-05-23 17:42:47 1430

原创字节跳动EthLink互联技术

EthLink（Ethernet Link）是字节跳动自研的 Scale-up 网络协议，为 GPU 集群提供高速互联网络通道，同时承载 GPU 发起的 Load/Store 语义和 RDMA 语义。如下图所示， EthLink 网络范围覆盖了 GPU 服务器内部互联和跨机的GPU 互联。

2025-05-06 11:50:30 689

原创 NVIDIA 5090 FP8 CUDA 手搓性能测试脚本详解

此 CUDA 程序借助 FP8 数据格式开展矩阵乘法运算，并且对其性能进行测试。核函数：实现矩阵乘法。矩阵初始化函数：对矩阵进行随机初始化。性能测试函数：测量矩阵乘法的执行时间。命令行参数解析函数：解析命令行输入的矩阵维度和测试轮数。主函数：调用上述函数，输出性能测试结果。将 __nv_fp8_e4m3 定义为 fp8_t，方便后续代码使用。__nv_fp8_e4m3 是 NVIDIA 定义的一种 FP8 数据格式，采用 4 位指数和 3 位尾数。具体数据格式可以参考如下文档。

2025-04-15 11:16:45 988 1

原创 NVIDIA RTX 5090 32G PCIE互联带宽测试，Llamafactory模型训练，vllm、trtllm模型推理性能测试

从nvidia官方cuda仓库中，可以下载到cudasamples（但是不能安装最新的12.8，只能装12.4，12.8实测在12.8.96驱动中编译不通过）由于5090属于sm120，在目前cuda12.8中的nccl仍对其有支持上的问题，因此需要手动重新编译安装最新版的NCCL通信库。可以看到峰值能来到50Gb/s左右，比就算4090开启了P2P后的性能也快了一倍左右。安装完成后，可以通过安装nccl-tesl来测试安装是否正确。devicequery结果。PCIE 5.0 平台。

2025-04-15 09:49:22 611

原创开放网络交换机系统SONiC与ONIE安装环境的常用命令

ONIE，即开放网络安装环境，它在网络设备领域扮演着关键角色。作为一种特殊的引导加载程序，ONIE被广泛应用于众多开放式网络交换机内。其核心功能在于助力网络操作系统（NOS）的安装与启动，同时也能处理其他各类软件镜像。在实际应用场景中，当网络工程师需要部署新的网络操作系统，或是对现有系统进行升级、更换软件镜像时，ONIE便发挥作用。它能提供一个标准化、便捷的操作环境，让相关的安装和引导流程更加顺畅，极大地提升了网络设备管理与维护的效率，为构建稳定、高效的网络架构奠定了基础。

2025-04-02 16:30:04 676

原创 Nvidia GH200 概述和设置与多节点 GH200 NCCL

内存速度不同，芯片也不同。如果模型太大，无法放入 2 个 GPU 的内存中，但您又不想使用 NUMA 降低其速度，则可以使用架构技巧有效地将服务器拆分为 2 个独立的推理节点，并在它们之间创建一个射线集群。还值得注意的是，它选择了 DMA-BUF（而不是传统的“nvidia-peermem”），这是直接内存访问的默认选择，并在较新的内核中受支持。需要了解的主要一点是，在运行时，它会尝试找到用于 GPU 间通信的最佳路径和结构，并在您在应用程序中调用它时设置所有内容（包括环或树、RDMA 等）。

2025-03-17 16:47:51 868

原创 NVIDIA H20-3e 141G Docker LLaMA Factory 训练与vllm 推理实战：解锁 Qwen2.5-14B 与 DeepSeek-R1-FP8 671B 的性能潜力

本文深度解析基于 NVIDIA H20-3e 141G GPU 的 AI 开发全流程，重点呈现其相比前代 H20 在硬件架构、显存容量（141GB vs 96GB）及计算效率上的跨越式升级。通过 LLaMA Factory 框架实现 Qwen2.5-14B 模型的监督微调（SFT）训练，结合 Transformer 引擎与多实例 GPU 技术，突破传统显存限制，实现混合精度训练吞吐量提升。在推理环节，vllm 引擎借助 H20-3e 的 FP8 计算核心与更快的 NVLink 互联，使 DeepSeek-R

2025-03-16 04:58:39 2130

原创 NVIDIA RTX4090 在Ubuntu系统中开启P2P peer access 直连访问

在人工智能计算、科学模拟和高性能计算领域，多GPU协同工作已成为突破算力瓶颈的必然选择。以NVIDIA RTX 4090为例，这款基于Ada Lovelace架构的旗舰GPU拥有24GB GDDR6X显存和高达1TB/s的显存带宽，但当面对需要多卡协同的大型深度学习模型训练（如LLM大语言模型）或超大规模流体力学仿真时，传统的多GPU通信架构会暴露显著性能瓶颈。这就是我们需要引入P2P（Peer-to-Peer）直连访问的核心动因。

2025-03-07 17:35:51 2461 5

原创如何使用昇腾Ascend 300I Pro 310P芯片单卡运行DeepSeek-R1-Distilled-Qwen-7B

基于昇腾310P芯片的Ascend 300I Pro推理卡是华为推出的一款高性能AI推理加速卡，专为数据中心和边缘计算场景设计。

2025-03-05 18:24:10 4974 4

原创如何点亮你的CXL2.0内存拓展设备——基于Asteralabs与澜起 Type3 CXL设备的安装与性能测试实战

ComputeExpressLink(CXL)是一种动态的多协议技术，其设计初衷是为了给加速器和内存设备提供支持。它提供了一套完备而丰富的协议集，其中包含了多种不同的语义协议。例如，CXL.io具有类似于PCIe的I/O语义，在整个系统中扮演着至关重要的角色，它是实现设备发现、枚举操作、错误报告以及主机物理地址（HPA）查找的必备协议。

2025-01-18 00:24:21 1222

原创昇腾 Profiling 性能调优工具 Ascend PyTorch Adaptor 使用

AscendPyTorchProfiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入AscendPyTorchProfiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。AscendPyTorchProfiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用。

2024-12-06 16:11:31 1273

原创昇腾910B ATLAS 300 A2 计算卡开箱检验与集群通信使能指南

昇腾910B通过卡上AICPU内置的NIC与集群中的其他卡进行通信，其中通信协议是，集合通信库（ Huawei Collective Communication Library ，简称HCCL）是基于昇腾硬件的高性能集合通信库，提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。HCCL支持AllReduce、Broadcast、Allgather、ReduceScatter、AlltoAll等通信原语，Ring、Mesh、HD等通信算法，在HCCS、RoCE和PCIe高速链路实现集合通信。

2024-11-29 15:42:16 3996 4

原创高通QCM6490开发板与aidlux系统使用

。

2024-07-10 23:33:35 1145

原创华为 ALTAS300I model3010 AI NPU Ubuntu驱动安装指南

由于最近项目上需要用到华为的ATLAS加速卡，但是最新的300I PRO价格已经来到了7000元左右，而300Tpro与300T A2的价格更是来到了可望而不可即的五位数与六位数，于是便选择上一代版本的ATLAS300I 作为测试样品，而其二手价格虽然闲鱼上标价有高有低，但实际上2000以内就能拿下。需要注意的是，ATLAS300I model3000 以及没有标注model的型号均为早期版本，仅支持鲲鹏系列服务器，原因如下。

2024-03-23 00:17:04 2841

原创 Mellanox网卡常用命令（固件，状态，线缆与模块）

显示当前链路状态，网卡支持速率（IB或ETH），线缆支持速率，以及当前连接opcode与故障提示。修改网卡的工作模式：（第2个网口是P2,仅适用于cx6及以前的卡，不适用于CX7）mlxlink 详细用法，可以更改接口速率，状态，与读取或写入线缆eeprom。需要修改的mac地址 sg 修改网卡的mac地址，详情看另一篇专栏。查询网卡固件具体名称，固件介绍与各种软件上的详细信息。显示DAC或者光模块的制造商信息，光功率，模块功耗。查询所有网卡的详细固件介绍与固件版本。读取线缆或模块的全部eeprom参数。

2023-11-09 03:47:42 9480 8