pytorch将不同的卡的日志输出到不同的文件

最新推荐文章于 2024-10-17 20:57:04 发布

涔湫

最新推荐文章于 2024-10-17 20:57:04 发布

阅读量23

点赞数

文章标签： pytorch 人工智能 python 深度学习机器学习

import logging
import os
import torch.distributed as dist
from torch.distributed import init_process_group


def setup_logger(log_file):
    logger = logging.getLogger()
    logger.setLevel(logging.INFO)

    # Create file handler which logs even debug messages
    fh = logging.FileHandler(log_file)
    fh.setLevel(logging.INFO)

    # Create console handler with a higher log level
    ch = logging.StreamHandler()
    ch.setLevel(logging.WARNING)

    # Create formatter and add it to the handlers
    formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    fh.setFormatter(formatter)
    ch.setFormatter(formatter)

    # Add the handlers to the logger
    logger.addHandler(fh)
    logger.addHandler(ch)
    return logger

if __name__ == "__main__":
    # Example log file: logs/log_rank_0.log, logs/log_rank_1.log, etc.
    # python -m torch.distributed.launch --nproc_per_node=4 test_data.py
    init_process_group(backend="nccl")
    rank = dist.get_rank()
    os.makedirs("logs", exist_ok=True)
    log_file = os.path.join("logs", f"log_rank_{rank}.log")
    logger = setup_logger(log_file)
    logger.info(f"Logging from rank {rank}")

然后命令行运行：

python -m torch.distributed.launch --nproc_per_node=4 test_data.py

结果展示：

pytorch将不同的卡的日志输出到不同的文件_python

其中一张卡的内容为：

2024-08-17 10:16:37,947 - root - INFO - Logging from rank 1

原创作者: u_9453611 转载于: https://blog.51cto.com/u_9453611/11844145

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

涔湫

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

lstm 多输入多输出负荷预测 pytorch 直接可跑内含数据集

09-26

标题中的“LSTM多输入多输出负荷预测PyTorch直接可跑内含数据集”指的是一个使用Python深度学习库PyTorch实现的项目，该项目专注于利用长短时记忆网络（LSTM）进行多输入多输出的负荷预测。负荷预测是能源管理、电力...

Pytorch Tensor 输出为txt和mat格式方式

01-20

假设result1为tensor格式，首先将其化为array格式（注意...以上这篇Pytorch Tensor 输出为txt和mat格式方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。您可能感兴趣的文

参与评论您还未登录，请先登录后发表或查看评论

Pytorch 分布式训练（DP/DDP）

热门推荐

ytusdc的博客

12-23

2万+

1、分布式训练：模型并行和数据并行分布式训练根据并行策略的不同，可以分为模型并行和数据并行。模型并行：是网络太大，一张卡存不了，那么拆分，然后进行模型并行训练。数据并行：多个显卡同时采用数据训练网络的副本。模型并行不是这里的讨论重点 1.1、数据并行数据并行的操作要求我们将数据划分成多份，然后发送给多个 GPU 进行并行的计算。注意：多卡训练要考虑通信开销的，是个trade off的过程，不见得四块卡一定比两块卡快多少，可能是训练到四块卡的时候通信开销已经占了大头下面是一个简单的

Pytorch基础｜分布式数据并行（DDP）以及其Pytorch实现

weixin_49659123的博客

07-05

937

本篇文章进一步深入解析分布式数据并行（DistributedDataParallel, DDP）的原理，并解析分布式数据并行在Pytorch中的实现。

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

weixin_42364196的博客

04-15

2060

，简明扼要地介绍一下DDP的使用，抛开繁杂的细节和原理，帮助快速上手使用（All in one blog）。篇幅较长，分为上下两篇：这篇简要介绍相关背景和理论知识，下篇详细介绍代码框架和搭建流程。

PyTorch从入门到实践 | (5) PyTorch常用工具

sdu_hao的博客

08-05

2271

在训练神经网络过程中，需要用到很多工具，其中最重要的三部分是：数据加载预处理、可视化和GPU加速。本章主要介绍Pytorch在这几方面的工具模块，合理使用这些工具能够极大地提高编码效率。目录 1. 数据处理 2. 计算机视觉工具包：torchvision 3. 可视化工具 4. 使用GPU加速：cuda 5. 持久化 1. 数据处理在解决深度学习问题的过程中，往往需要花费大量的...

PyTorch学习笔记（2）- 数据、可视化、GPU加速、持久化

weixin_42194879的博客

09-07

895

数据、可视化、GPU加速

【pycharm】在本地利用远程服务器显卡跑代码

定期分享我的发现和想法，感谢你的陪伴和支持

12-03

7988

Pycharm2021.1连接远程服务器

领域大模型修炼手册—从训练、评测到应用搭建

AI小白入门的博客

08-15

898

作者|Zhenyu Zhang, Shen Lei, Yuming Zhao, Shaozu Yuan, Meng Chen 编辑|Shaozu Yuan,Yuquan Le一、整体介绍及训练框架背景介绍虽然目前的通用大模型LLM能够在很多任务上取得令人振奋的效果，但是很多私域业务领域由于由于和通用领域差距较大，直接应用开源LLM经常效果不能达到令人满意的程度。例如，电商领域、医学领...

一行一行讲解深度学习代码（一）保姆级教程！！！如何看懂一个开源深度学习项目的代码

weixin_51193374的博客

03-28

3767

其中，训练和测试代码一般写在主程序里，也有的会封装成叫train或者test/inference之类的函数。数据集读取和预处理代码一般在data.py或者utils.py之类的文件里。另一方面，不同规模的项目，本身需要的结构也是很不一样的。Prototype代码讲究简洁易懂，而平台级别的库讲究模块化和可维护性，这也是为什么很多人看懂了MNIST上的代码，却经常看不懂开源库的原因。一方面，代码结构取决于开发者自身的编程观念和水平，有人会一路长函数写到底，有人会利用面向对象进行封装和复用。

常看常新操作

m0_61667323的博客

10-10

370

科研小白实验室新手入门新手入门深度学习 常见操作

获取pytorch网络任意中间层输出

07-05

可以获取任意中间层的特征图输出

基于pytorch的LSTM多变量多输出时间序列预测使用例

07-28

使用pytorch搭建的简单的LSTM多变量多输出时间序列预测的使用例。生成了多个以sinx、cosx、tanx构成的序列，使用[i:i+50]的数据预测[i+51]的数据。x是步长为0.1的等差数列作者初学时用来当说明文档使用，程序适合...

pytorch学习日志，深度学习资源整理

04-14

本日志可能包括了从基础概念到高级技巧的全面讲解，旨在帮助用户更好地理解和运用PyTorch进行深度学习项目。【描述】"PyTorch学习日志，深度学习资源整理" 暗示了作者在学习过程中积累的经验和资料，可能包含了...

材料力学：数据驱动（神经网络）预测位移

m0_72010245的博客

10-13

1217

基于位移场和应力-应变关系，模拟材料和结构的力学行为。

Pytorch nn.Module register_buffer

qq_36396406的博客

10-14

211

方法可以用来将张量注册为模型的缓冲区（buffer），它们不会作为模型的可训练参数参与反向传播，但会跟随模型一起移动到相应的设备，如 CPU 或 GPU。这通常用于存储模型中的状态信息，如均值、方差、或某些需要保留但不更新的中间结果。以下是一个简单的例子，说明如何使用。

完整的模型训练套路 pytorch