RTX4090-Pytorch-DDP训练

最新推荐文章于 2025-03-14 09:42:33 发布

yscript

最新推荐文章于 2025-03-14 09:42:33 发布

阅读量207

点赞数 3

分类专栏：一些小应用文章标签： pytorch 人工智能 python linux bug 服务器深度学习

本文链接：https://blog.csdn.net/m0_59741202/article/details/145852323

版权

一些小应用专栏收录该内容

27 篇文章

订阅专栏

NCCL_IB_DISABLE=1 NCCL_P2P_DISABLE=1 CUDA_VISIBLE_DEVICES=4,5 torchrun \
--nnodes=1 --nproc_per_node=2 --node_rank=0 \
--master_addr=localhost \
./xxx.py \

这条命令的作用是：
在单机环境下启动一个分布式训练任务。
使用两块 GPU（GPU 4 和 GPU 5），每个 GPU 分别运行一个进程。
禁用了 NCCL 的 InfiniBand 和 P2P 功能（有的4090需要启动此命令）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yscript

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【进程丢失】pytorch DDP分布式训练10个epoch就丢失1个GPU进程

Hello Word!

05-30

1091

现象：已经重复发生过，而且掉进程的卡bus id不一样 Pytorch 版本 1.7.0 ，卡：titan rtx x 8 很奇怪的bug，目前分析的原因： batch size过大，每张卡显存占的太满，导致训练的时候显存爆了？问题：那为什么一开始不爆呢？程序有显存泄漏？显卡过热（这个目前应该不是引起的原因，因为散热风挡已经开到最大，温度最多70度左右） ...

Python：RTX 40系列显卡安装 CUDA ，以 RTX 4070 为例，CUDA Toolkit 12.6 Downloads

简简单单Onlinezuozuo

08-25

1012

Python：RTX 40系列显卡安装 CUDA ，以 RTX 4070 为例。

参与评论您还未登录，请先登录后发表或查看评论

NVIDIA RTX4090 在Ubuntu系统中开启P2P peer access 直连访问

aosudh的博客

03-07

1865

在人工智能计算、科学模拟和高性能计算领域，多GPU协同工作已成为突破算力瓶颈的必然选择。以NVIDIA RTX 4090为例，这款基于Ada Lovelace架构的旗舰GPU拥有24GB GDDR6X显存和高达1TB/s的显存带宽，但当面对需要多卡协同的大型深度学习模型训练（如LLM大语言模型）或超大规模流体力学仿真时，传统的多GPU通信架构会暴露显著性能瓶颈。这就是我们需要引入P2P（Peer-to-Peer）直连访问的核心动因。

国鑫4090服务器性能提升35％推理效率/能效实现双飞跃

gooxi_hui的博客

02-07

453

春节过后，国鑫宣布：通过全栈垂直优化技术，国鑫全系列8卡GPU服务器的 NCCL（NVIDIA Collective Communications Library）性能最高提升35%，整机NCCL带宽最高达26GB，AI推理效率与能效比实现跨越式突破。

ragflow 多张 4090 GPU 初始化文档报错 NCCL Error 2: unhandled system error

顺其自然~专栏

03-14

259

ragflow 多张 4090 GPU 初始化文档报错 NCCL Error 2: unhandled system error

多卡微调全参qwen-14b ubuntu22.04 8*4090 踩坑简单记录

weixin_46566149的博客

01-11

4078

最后序列长度恢复为512，batchsize恢复为16，梯度累计为16，成功跑起来。每张卡可以占满，内存占用520G。调小batchsize=8,调小batchsize=4，调小batchsize=1，都不起作用。model参数+优化器+梯度+中间计算变量即4份model参数，我们需要112g的显存。调小序列长度=1024，调小序列长度=256，不起作用。我们的8*4090 8*24G=192G显然是远远足够的。配置zero-3，不起作用。，即在zero3的基础上启用cpu计算，

pytorch多机训练

ygfrancois的博客

06-15

3754

设置环境变量 export NCCL_P2P_DISABLE=1 export NCCL_IB_DISABLE=1 export NCCL_DEBUG=info export NCCL_SOCKET_IFNAME=eth0

NCCL变量设置

weixin_56515806的博客

08-02

4314

这些是环境变量的设置命令，用于配置 NVIDIA Collective Communications Library (NCCL)的运行参数。NCCL_DEBUG=INFO 含义。

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

weixin_42364196的博客

04-15

3841

一个简单的Pytorch DDP实例代码和讲解

PyTorch训练（三）：DDP（DistributedDataParallel）【“单机多卡”、“多机多卡”分布式训练模式】【支持混合精度（fp16/fp32）】【只将数据并行，模型大于显卡则不行】

u013250861的博客

05-10

1721

一、概述我们知道 PyTorch 本身对于单机多卡提供了两种实现方式 DataParallel（DP）：Parameter Server模式，一张卡位reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式训练，但是也可用于单机多卡。 DataParallel（DP）是基于Parameter server的算法，实现比较简单，只需在原单机单卡代码的基础上增加一行： gpu_ids = [0, 2, 3] mode.

使用PyTorch Lightning从头开始实现并训练CNN

深度学习与计算机视觉

08-19

1515

本文是对卷积神经网络（CNN）的简要介绍。本文详细介绍了PyTorch Lightning的优点，然后简要介绍了CNN组件的理论，并描述了使用PyTorch Lightning库从头开始编写的简单CNN架构的训练循环的实现。为什么选择PyTorch Lightning？PyTorch是一个灵活且用户友好的库。如果说PyTorch在研究方面非常优秀，我认为Lightning在工程方面更胜一筹。其主要...

Pytorch 分布式并行DDP 卡死挂起

qq_40947610的博客

11-30

9860

Pytorch 分布式并行DDP 卡死，设置NCCL_P2P_DISABLE=1禁用GPU之间直接通信即可解决。

大模型推理：A100/H100 太贵，何不用 4090？

zenRRan的博客

03-18

4690

作者：李博杰， Logenic AI 联合创始人、中科大与MSRA联培计算机博士、华为天才少年主页：https://01.me/声明：本文只做分享，版权归原作者，侵权私信删除！https://zhuanlan.zhihu.com/p/655402388编辑：青稞AI大模型的训练用 4090 是不行的，但推理（inference/serving）用 4090 不仅可行，在性价比上还能比 H100 稍...

【开发配置】配置一台4090主力开发机的完全过程手册

CodeInLinXu

04-27

1016

【开发配置】配置一台4090主力开发机的完全过程手册 1、硬件配置清单硬件配置数量价格参考 Intel i7 13700KF(cpu) 1 九州风神冰魔方240 LT520(白) 1 华硕 ROG STRIX B760-I GAMING 1 海盗船 16G DDR5(6000MHZ) 复仇者 1 西数黑盘SN770 500G NVME 2 电...

NCCL 实践与体会开启IB环境变量设置

wjw7869的专栏

12-25

1306

开启IB/ROCE/的环境变量设置。

GTX4090显卡pytorch多卡并行问题

icestorm_rain的博客

08-26

1187

在~/.bashrc中添加 export NCCL_P2P_DISABLE=1，并source ~/.bashrc，重新运行代码大功告成。

CogVLM多模态大模型训练代码详细教程(基于vscode调试与训练）

weixin_38252409的博客

01-08

3138

今天(2023-12-29)，我很开心，断断续续时间搞了一下CogVLM大模型训练代码，终于实现了CogVLM大模型训练。特别是我是基于vscode编辑器配置launch.json文件在RTX4090显卡实现多模态大模型训练。可能很多玩过大模型或显卡显存充足情况下，使用官网教程，顺利情况亦可实现该模型训练。然我介于显卡为云服务，不得不在一张4090显卡上实现代码解读与训练。而代码解读必然使用debug模式较佳，在多种编辑器中看到vscode能力，我实现deepspeed方式在vscode中训练大模型。

为什么4090速度比A100快很多呢？

CV_Autobot的博客

11-23

1797

作者|李博杰编辑| 自动驾驶Daily原文链接：https://www.zhihu.com/question/615946801/answer/3205148871点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『CUDA编程』技术交流群本文只做学术分享，如有侵权，联系删文（长文预警）这是一个好问题。先说结论，大...

分析解读NCCL_SHM_Disable与NCCL_P2P_Disable

存储随笔

06-13

3392

在NVIDIA的NCCL（NVIDIA Collective Communications Library）库中，`NCCL_SHM_Disable` 和 `NCCL_P2P_Disable` 是两个重要的环境变量，它们控制着NCCL在多GPU通信中的行为和使用的通信机制。- **影响**：禁用SHM后，NCCL在同节点内的通信将不得不依靠其他机制，如通过网络接口（如InfiniBand或TCP/IP）来进行通信，这通常会导致通信延迟增加和带宽效率下降。

RTX3090 4卡

最新发布

03-20

### RTX 3090 四卡配置方案 #### 硬件需求构建基于 NVIDIA GeForce RTX 3090 的四显卡系统需要考虑多个硬件组件之间的兼容性和性能匹配。以下是主要的硬件需求： 1. **主板**: 主板需支持至少四个 PCIe x16 插槽，并提供足够的带宽来驱动这些 GPU。推荐使用工作站级或高端游戏主板，例如 ASUS ROG Strix X299-E Gaming 或 MSI MEG X570 ACE。这类主板通常具备更高的供电能力和散热设计[^1]。 2. **电源供应器 (PSU)**: 每张 RTX 3090 需要约 350W 功耗，因此总功耗可能达到 1400W 左右（未计算 CPU 和其他部件）。建议选用额定功率不低于 1600W 的高品质 PSU，如 Corsair AX1600i 或 Seasonic Prime TX-1600[^2]。 3. **机箱**: 大型 ATX 或 EATX 兼容机箱是必需品，因为它们能容纳多张全尺寸显卡以及额外的冷却设备。Fractal Design Define 7 XL RGB 是一个不错的选择[^3]。 4. **CPU 及内存**: 虽然训练深度学习模型时大部分负载由 GPU 承担，但主机仍应配备高性能处理器和充足 RAM 来处理数据预加载和其他辅助任务。Intel Core i9-12900K 或 AMD Ryzen Threadripper Pro 3975WX 结合至少 64GB DDR4 内存可以满足此需求[^4]。 #### 软件环境搭建对于 CUDA 开发者来说，在 Linux 平台上设置一个多 GPU 训练环境至关重要。以下是一些关键步骤： 1. 安装最新版本的 NVIDIA Driver 和对应版次的 CUDA Toolkit （如 Cuda 11.x），确保所有驱动程序都已更新至官方发布的稳定状态。 2. 使用 NCCL 库优化跨节点通信效率；它专为加速分布式深度神经网络而设计，能够显著提升多 GPU 场景下的同步速度[^5]. 3. 对于特定框架的支持，比如 PyTorch 或 TensorFlow，则按照其文档指南完成安装过程即可实现无缝切换到 multi-GPU mode 下工作模式下执行运算操作命令行参数 `--gpus=auto` 就可以让程序自动检测可用资源并分配给各个进程实例共享利用整个集群内的全部算力潜能最大化发挥出来效果最佳表现形式呈现给大家看吧！ ```bash # Example of running a script with multiple GPUs using PyTorch's DDP feature. CUDA_VISIBLE_DEVICES="0,1,2,3" python -m torch.distributed.launch --nproc_per_node=4 your_script.py ... ``` --- ###