pytorch之torch.backends.cudnn.benchmark=True——使用 GPU 来加速网络的训练

最新推荐文章于 2023-11-27 10:21:12 发布

浩瀚之水_csdn

最新推荐文章于 2023-11-27 10:21:12 发布

阅读量1.1k

点赞数 1

分类专栏： # Pytorch框架

版权

142 篇文章 16 订阅

订阅专栏

本文介绍如何通过设置 CuDNN 的参数来优化 PyTorch 中深度学习模型的运行效率。具体探讨了 torch.backends.cudnn.enabled 和 torch.backends.cudnn.benchmark 的作用及适用场景，帮助读者理解何时启用这些选项可以获得最佳性能。

摘要由CSDN通过智能技术生成

简介

import torch
torch.backends.cudnn.enabled = True
torch.backend.cudnn.benchmark=True

cuDNN使用非确定性算法，并且可以使用torch.backends.cudnn.enabled = False来进行禁用

如果设置为torch.backends.cudnn.enabled =True，说明设置为使用使用非确定性算法
然后再设置：
torch.backends.cudnn.benchmark = True

所以我们经常看见在代码开始出两者同时设置：

torch.backends.cudnn.enabled = True
torch.backends.cudnn.benchmark = True

大部分情况下：
设置这个 flag 可以让内置的 cuDNN 的 auto-tuner 自动寻找最适合当前配置的高效算法，来达到优化运行效率的问题。

设置 torch.backends.cudnn.benchmark=True 将会让程序在开始时花费一点额外时间，为整个网络的每个卷积层搜索最适合它的卷积实现算法，进而实现网络的加速。

一般来讲，应该遵循以下准则：
如果网络的输入数据维度或类型上变化不大，网络结构固定（不是动态变化的），网络的输入形状（包括 batch size，图片大小尺寸，输入的通道）是不变的，设置 torch.backends.cudnn.benchmark = true 可以增加运行效率；

benchmark模式会提升计算速度，但是由于计算中有随机性，每次网络前馈结果略有差异。如果想要避免这种结果波动，设置：torch.backends.cudnn.deterministic = True保证实验的可重复性。

反之，如果网络的输入数据在每次 iteration 都变化的话，（例如，卷积层的设置一直变化、某些层仅在满足某些条件时才被“激活”，或者循环中的层可以重复不同的次数），会导致 cnDNN 每次都会去寻找一遍最优配置，这样反而会耗费更多的时间，降低运行效率。