non_blocking=True 与 torch.cuda.synchronize()

需要注意的是:GPU和CPU之间是异步执行的,CPU向GPU下达指令以后会立刻执行之后的代码,CPU不会等待GPU执行完成

一、non_blocking=True 

目的:压缩gpu的效果,避免CPU与GPU设备数据传输时间开销带来的计算效率低下

在 PyTorch 中, non_blocking 是一个布尔类型的参数,用于指定是否启用异步数据传输。当你将 Tensor 数据从 CPU 移动到 GPU 时,可以通过设置 non_blocking=True 来启用异步传输模式,从而提高计算效率。这是因为深度学习很多程序在执行的时候加载数据的时间非常久,常见的两种策略分别是:pin_memory 和 non_blocking

这里给出一个示例:

images = images.to(device, non_blocking=True)

# 标准化等操作
mean = torch.Tensor([0.978, 0.977, 0.979]).cuda().unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
std = torch.Tensor([0.131, 0.136, 0.129]).cuda().unsqueeze(0).unsqueeze(-1).unsqueeze(-1)

# 输入model
image = (images - mean) / std
y = model(image)

# 等待数据异步传输完成
torch.cuda.synchronize()

# logger更新等操作

这里是将image从CPU转到gpu的时候,同时使用non_blocking=True异步操作,可以让程序同时执行下面的标准化等操作,其中标准化等操作并不涉及对加载的image进行操作,所以异步执行没有问题,并不需要torch.cuda.synchronize()等待上述程序执行完成。

Q:这里会有一个疑惑?为什么可以在异步的情况下直接将images输入进model?

A:其实第一步的CPU转到gpu的速度是很快的,程序可以保证在标准化等操作的时候就执行完CPU转到gpu的传输,这里使用non_blocking=True 只是为了进一步压缩gpu的使用效率。

然后最后会执行一步 torch.cuda.synchronize(),这是因为下面是logger等操作,我们还是需要等model执行完再logger记录,否则会因为GPU和CPU之间是异步执行的,CPU不会等待GPU执行完成(model(image))执行完成就记录logger

二、 torch.cuda.synchronize()

目的:保证执行完gpu的任务再执行下面的操作

这是因为:GPU和CPU之间是异步执行的,CPU向GPU下达指令以后会立刻执行之后的代码,所以我们需要使用`torch.cuda.synchronize() `显示地等待GPU完成运算。

有一个例子是这样的:

pytorch 正确的测试时间的代码 torch.cuda.synchronize()_torch.cuda.synchronize() time-CSDN博客

需要注意的是任何在CPU上执行的操作都会打断gpu的异步操作,会将其变成同步操作,例如print()

所以不必要太在乎 torch.cuda.synchronize(),这种东西主要是为了保证让程序变成同步执行

Pytorch中x.cuda(non_blocking=True)参数解释_x.cuda()-CSDN博客

详细介绍以及有错误地方'''Training script. ''' import os from tqdm import tqdm import torch import torch.nn as nn from torch.utils.data import DataLoader from torch.optim import Adam, lr_scheduler from torchsummary import summary from torchvision import transforms import torch.distributed as dist import torch.multiprocessing as mp from models.resnet50 import ResNet50 from runtime_args import args from load_dataset import LoadDataset from plot import plot_loss_acc from helpers import calculate_accuracy device = torch.device("cuda:0" if torch.cuda.is_available() and args.device == 'gpu' else 'cpu') if not os.path.exists(args.graphs_folder) : os.mkdir(args.graphs_folder) model_save_folder = 'resnet_cbam/' if args.use_cbam else 'resnet/' if not os.path.exists(model_save_folder) : os.mkdir(model_save_folder) def train(gpu, args): '''Init models and dataloaders and train/validate model. ''' rank = args.rank * args.gpus + gpu world_size = args.gpus * args.nodes dist.init_process_group(backend='nccl', init_method='env://', world_size=world_size, rank=rank) model = ResNet50(image_depth=args.img_depth, num_classes=args.num_classes, use_cbam=args.use_cbam) torch.cuda.set_device(gpu) model.cuda(gpu) optimizer = Adam(model.parameters(), lr=args.learning_rate) lr_decay = lr_scheduler.ExponentialLR(optimizer, gamma=args.decay_rate) criterion = torch.nn.CrossEntropyLoss().cuda(gpu) summary(model, (3, 224, 224)) model = nn.parallel.DistributedDataParallel(model, device_ids=[gpu]) train_dataset = LoadDataset(dataset_folder_path=args.data_folder, image_size=args.img_size, image_depth=args.img_depth, train=True, transform=transforms.ToTensor()) test_dataset = LoadDataset(dataset_folder_path=args.data_folder, image_size=args.img_size, image_depth=args.img_depth, train=False, transform=transforms.ToTensor()) train_sampler = torch.utils.data.distributed.Distri
最新发布
03-12
### 审查和修正PyTorch深度学习训练脚本 为了确保ResNet50模型在分布式数据并行环境下的有效性和效率,以下是针对可能存在的常见问题及其解决方案: #### 1. 数据加载器配置优化 对于大规模数据集,适当调整`DataLoader`参数能显著提升性能。建议如下设置以提高数据读取速度[^2]: ```python train_loader = DataLoader( train_dataset, batch_size=batch_size, shuffle=True, num_workers=ncpu_cores, # 使用所有可用CPU核心数 pin_memory=True # 加速GPU内存传输 ) ``` #### 2. GPU资源利用最大化 当使用多个GPU时,应启用CUDA自动寻找最优卷积算法的功能,并同步批量归一化层的统计信息,从而更好地发挥硬件潜力: ```python torch.backends.cudnn.benchmark = True model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model) ``` #### 3. 模型初始化设备分配 确保模型实例被正确放置到目标计算设备上,并通过Distributed Data Parallel (DDP)封装来支持多节点/多GPU训练: ```python device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = model.to(device) if torch.cuda.device_count() > 1: model = nn.parallel.DistributedDataParallel(model) ``` #### 4. 训练循环改进 为了避免不必要的阻塞操作影响整体吞吐量,在将张量移动至指定设备时推荐使用`non_blocking=True`选项: ```python for inputs, labels in train_loader: inputs, labels = inputs.to(device, non_blocking=True), \ labels.to(device, non_blocking=True) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() ``` 以上修改不仅有助于解决潜在的技术难题,还能进一步增强系统的稳定性和扩展能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pengsen Ma

太谢谢了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值