【深度学习】torch消除模型训练的随机性，使结果可复现

最新推荐文章于 2025-03-12 16:38:25 发布

McGregorWwww

最新推荐文章于 2025-03-12 16:38:25 发布

阅读量3.6k

点赞数 7

分类专栏：深度学习中常见错误分析及解决办法深度学习图像分割文章标签：深度学习神经网络计算机视觉目标检测 pytorch

本文链接：https://blog.csdn.net/qq_40475568/article/details/118959964

版权

深度学习同时被 3 个专栏收录

26 篇文章

订阅专栏

深度学习中常见错误分析及解决办法

10 篇文章

订阅专栏

图像分割

7 篇文章

订阅专栏

本文探讨了深度学习中随机性对实验结果的影响，尤其是在复现研究和模型验证时。介绍了如何通过设置随机种子、控制Python、Numpy、PyTorch、DataLoader以及CUDA的随机性来确保一致性。此外，还提到了一个特定的分割任务中，由于UpsamplingBilinear2D操作的随机性导致的问题，并提供了解决方案。参考PyTorch官方文档，消除随机性有助于提高实验的可复现性和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

现有的深度学习框架存在一定的随机性，在复现论文、验证模块有效性，SOTA实验时有很大的干扰，在之前的实验中，我所遇到的因随机性产生的模型准确率的差距可达10%。因此，消除随机性很有必要。

方法

1、设置随机种子

随机种子的设置可以使随机函数在当前种子下产生相同的随机数：

SEED=1234

SEED可以设置为任意值：0、666、123456等

2、消除Python与Numpy的随机性

import random
import numpy as np

random.seed(SEED)
np.random.seed(SEED)

3、消除torch的随机性

import torch
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED) # 适用于显卡训练
torch.cuda.manual_seed_all(SEED) # 适用于多显卡训练

4、消除DataLoader的随机性

在使用torch时，一般都会使用DataLoader加载数据集，这个类使用了多线程的处理方式，因此会造成一定随机性，可以使用如下方式消除：

def worker_init_fn(worker_id):
    random.seed(SEED + worker_id)

g = torch.Generator()
g.manual_seed(SEED)

DataLoader(
    train_dataset,
    batch_size=batch_size,
    num_workers=num_workers,
    worker_init_fn=worker_init_fn
    generator=g,
)

5、消除CUDA随机性（适用于GPU训练）

from torch.backends import cudnn

cudnn.benchmark = False
cudnn.deterministic = True

6、对于分割任务，UpsamplingBilinear2D随机性bug

最近遇到的一个bug，在消除了上述所有随机性后训练结果仍然复现，折腾了半天发现是双线性插值上采样的坑，如官方文档所说：

我使用的服务器显卡是NVIDIA RTX A40 48G，cuda版本为11.1，同样的问题在另一台服务器上就没出现，可能是cuda版本的问题，解决方法是将bilinear改为了nearest，但是可能会损失一定的精度。

参考：https://pytorch.org/docs/stable/notes/randomness.html