Q.Ethan-CSDN博客

原创英伟达GPU服务器训练前环境sop检查

摘要：本文详细介绍了N卡GPU服务器在AI模型训练前的系统性环境检查SOP，涵盖硬件状态、驱动与CUDA环境、深度学习框架依赖及性能基准测试等关键环节。重点包括：1）通过nvidia-smi检查GPU状态、拓扑和NVLINK连接；2）确认IB网卡名称与状态，确保NUMA平衡；3）设置GPU主频和CPU性能模式；4）验证RDMA网络性能；5）使用nccl-tests进行多机通信测试。通过这套标准化检查流程，可有效规避环境问题导致的训练中断或性能损失，为AI训练提供稳定可靠的硬件基础。

2025-10-30 12:30:28 777

原创算力采购避坑宝典：Beyond the Specs- 深度考察GPU算力供应商的终极清单

1. 当我方在使用 A800/A100/H100 算力过程中遇到技术问题（如算力性能不达标、兼容性问题），贵方技术支持团队的响应时间是多久？4. 针对我方可能提出的特殊技术需求（如定制化算力调度策略、性能优化），贵方可提供的技术解决方案流程是什么？1. 典型客户案例提供3个以上使用A800/A100/H100的客户案例，包括客户名称、使用场景、规模、时长。无论您是即将进行供应商考察，还是希望构建内部的评估体系，这份源于一线实战的清单，都将助您拨开营销迷雾，做出最明智的采购决策。

2025-10-27 11:23:55 942

原创数据中心GPU芯片性能参数速查表（Nvidia+国产算力卡）

Nvidia的数据中心用GPU芯片，不断更新迭代新的架构。不同架构下的 GPU芯片，其性能参数大相径庭。在计算能力方面，从早期架构到如今的先进架构，CUDA 核心数量不断增加，如从 Kepler 架构开始，SM 单元中的 CUDA 核心数大幅提升，这使得通用计算能力得到极大增强。每代的架构，都会以一个著名科学家的名字命名，截止目前，已经有 11 款芯片架构代号取自科学家名字。如下所示：

2025-06-04 17:49:30 6177 2

原创使用国内 huggingface 镜像下载模型数据集方法

Hugging Face作为全球知名的AI模型和数据集共享平台，拥有海量的资源可供开发者使用。然而，由于网络环境等因素的影响，国内开发者在直接访问Hugging Face官网下载模型和数据集时，往往会遇到速度慢甚至无法下载的问题。为了帮助国内AI开发者解决这一难题，Hugging Face的国内镜像站点应运而生。这些镜像站点通过在国内部署服务器，加速了模型和数据集的下载速度，极大地提高了开发效率。

2025-05-27 11:32:59 2246

原创 Infiniband写入带宽对RDMA网络的基准测试方法

通过RDMA网络读写速率测试，可以为应用开发者提供准确的网络性能数据，帮助他们更好地理解网络的瓶颈和优势，从而有针对性地优化应用的通信逻辑，提高应用的整体性能和效率。

2025-04-29 17:35:16 1281

原创 GPU集群计算IB网卡命名不一致修改

在使用不同厂家的服务器做集群训练时，因为不同厂家的GPU服务器配置不同会影响计算网的通信，以下图为例：mlx5_6网卡在A机器上为25GE网卡，在B机器上为200G的IB网卡，在添加NCCL通信相关配置时，如果没有统一命名，会因为网卡名称导致通信报错。修改 KERNELS==“0000:” 的值，参考smt status -v中的 PCI值对应的NET网卡，保存后reboot。3.ibdev2netdev 查看命名，已经修改成功。下查看PCIE对应的NUMA关系。

2025-04-29 16:37:33 592

原创 A800 GPU服务器麒麟V10操作系统安装CUDA

A800服务器使用麒麟v10安装 CUDA

2025-04-28 19:30:51 1104

k5218024的博客