Pytorch 设置随机种子Seed来保证训练结果可复现性

最新推荐文章于 2024-08-05 09:23:35 发布

王予冠首

最新推荐文章于 2024-08-05 09:23:35 发布

阅读量1.4k

点赞数 3

文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/wedream23/article/details/135947424

版权

为什么每次训练结果一样

模拟训练中存在许多随机值，最常见的有：
1.随机权重，网络有一些部分的权重没有预训练，它的值则是随机初始化的，每次随机初始化不同导致结果不同
2.随机数据增强，一般来讲网络训练会进行数据增强，特别是少量数据的情况下，数据增强一般会随机变化的光照，对比度，扭曲等。也会导致结果不同
3.随机数据读取，喂入训练的顺序也会影响结果。

如果能够固定权重，固定数据增强情况，固定数据读取顺序，网络理论上每一次独立训练的结果都是一样的

什么是随机种子

随机种子（Random Seed）是计算机专业术语。一般计算机的随机数都是伪随机数，以一个真随机数（种子）作为初始条件，然后用一定的算法不停迭代产生随机数。

按照这个理解，我们如果可以设置最初的真随机数（种子），那么后面出现的随机数将会是固定序列。

以random库为例，我们使用如下的代码，前两次为随机生成，后两次为设置随机数生成器种子后生成。

import random

# 生成随机整数
print("第一次随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 生成随机整数
print("第二次随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 设置随机数生成器种子
random.seed(11)

# 生成随机整数
print("第一次设定种子后随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 重置随机数生成器种子
random.seed(11)

# 生成随机整数
print("第二次设定种子后随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

运行结果

第一次随机生成
78
26
第二次随机生成
29
44
第一次设定种子后随机生成
58
72
第二次设定种子后随机生成
58
72

训练中设置随机种子

一般训练会用到多个库包含有关random的内容。

在pytorch构建的网络中，一般都是使用下面三个库来获得随机数，我们需要对三个库都设置随机种子：
1、torch库；
2、numpy库；
3、random库。

在这里写了一个函数：

#---------------------------------------------------#
#   设置种子
#---------------------------------------------------#
def seed_everything(seed=11):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

这里面写到了cuda、cudnn这类gpu才会用到的东西，实测发现cpu版本的pytorch也可以正常运行。

torch.backends.cudnn.deterministic=True用于保证CUDA 卷积运算的结果确定。
torch.backends.cudnn.benchmark=False是用于保证数据变化的情况下，减少网络效率的变化。为True的话容易降低网络效率。

只需要在所有初始化前，调用该seed初始化函数即可。

另外，Pytorch一般使用Dataloader来加载数据，Dataloader一般会使用多worker加载多进程来加载数据，此时我们需要使用Dataloader自带的worker_init_fn函数初始化Dataloader启动的多进程，这样才能保证多进程数据加载时数据的确定性

#---------------------------------------------------#
#   设置Dataloader的种子
#---------------------------------------------------#
def worker_init_fn(worker_id, rank, seed):
    worker_seed = rank + seed
    random.seed(worker_seed)
    np.random.seed(worker_seed)
    torch.manual_seed(worker_seed)

學習來源：添加链接描述

王予冠首

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Pytorch 设置随机种子Seed来保证训练结果可复现性

随机种子（Random Seed）是计算机专业术语。一般计算机的随机数都是伪随机数，以一个真随机数（种子）作为初始条件，然后用一定的算法不停迭代产生随机数。按照这个理解，我们如果可以设置最初的真随机数（种子），那么后面出现的随机数将会是固定序列。以random库为例，我们使用如下的代码，前两次为随机生成，后两次为设置随机数生成器种子后生成。# 生成随机整数print("第一次随机生成")# 生成随机整数print("第二次随机生成")# 设置随机数生成器种子# 生成随机整数。
复制链接

扫一扫