Pytorch 设置随机种子Seed来保证训练结果可复现性

为什么每次训练结果一样

模拟训练中存在许多随机值,最常见的有:
1.随机权重,网络有一些部分的权重没有预训练,它的值则是随机初始化的,每次随机初始化不同导致结果不同
2.随机数据增强,一般来讲网络训练会进行数据增强,特别是少量数据的情况下,数据增强一般会随机变化的 光照,对比度,扭曲等。也会导致结果不同
3.随机数据读取,喂入训练的顺序也会影响结果。

如果能够固定权重,固定数据增强情况,固定数据读取顺序,网络理论上每一次独立训练的结果都是一样的

什么是随机种子

随机种子(Random Seed)是计算机专业术语。一般计算机的随机数都是伪随机数,以一个真随机数(种子)作为初始条件,然后用一定的算法不停迭代产生随机数。

按照这个理解,我们如果可以设置最初的 真随机数(种子),那么后面出现的随机数将会是固定序列。

以random库为例,我们使用如下的代码,前两次为随机生成,后两次为设置随机数生成器种子后生成。

import random

# 生成随机整数
print("第一次随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 生成随机整数
print("第二次随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 设置随机数生成器种子
random.seed(11)

# 生成随机整数
print("第一次设定种子后随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

# 重置随机数生成器种子
random.seed(11)

# 生成随机整数
print("第二次设定种子后随机生成")
print(random.randint(1,100))
print(random.randint(1,100))

运行结果

第一次随机生成
78
26
第二次随机生成
29
44
第一次设定种子后随机生成
58
72
第二次设定种子后随机生成
58
72

训练中设置随机种子

一般训练会用到多个库包含有关random的内容。

在pytorch构建的网络中,一般都是使用下面三个库来获得随机数,我们需要对三个库都设置随机种子:
1、torch库;
2、numpy库;
3、random库。

在这里写了一个函数:

#---------------------------------------------------#
#   设置种子
#---------------------------------------------------#
def seed_everything(seed=11):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

这里面写到了cuda、cudnn这类gpu才会用到的东西,实测发现cpu版本的pytorch也可以正常运行。

torch.backends.cudnn.deterministic=True用于保证CUDA 卷积运算的结果确定。
torch.backends.cudnn.benchmark=False是用于保证数据变化的情况下,减少网络效率的变化。为True的话容易降低网络效率。

只需要在所有初始化前,调用该seed初始化函数即可。

另外,Pytorch一般使用Dataloader来加载数据,Dataloader一般会使用多worker加载多进程来加载数据,此时我们需要使用Dataloader自带的worker_init_fn函数初始化Dataloader启动的多进程,这样才能保证多进程数据加载时数据的确定性

#---------------------------------------------------#
#   设置Dataloader的种子
#---------------------------------------------------#
def worker_init_fn(worker_id, rank, seed):
    worker_seed = rank + seed
    random.seed(worker_seed)
    np.random.seed(worker_seed)
    torch.manual_seed(worker_seed)


學習來源:添加链接描述

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
dataloader是PyTorch中用于加载数据的工具,它可以方便地对数据进行预处理、转换和加载。在使用dataloader加载数据时,我们可以通过设置随机种子来控制数据的洗牌(shuffle)过程。 为什么需要设置随机种子呢?在训练深度学习模型时,通常需要将数据集随机打乱来增加模型的泛化能,减少模型对数据的依赖。随机洗牌可以打破输入数据的顺序,使模型更好地学习数据的特征和规律。但是,在同样的训练过程中,我们希望每次运行时的随机结果都是一致的,这样才能确保模型的可复现,方便我们进行调试和比较实验结果。 因此,我们可以通过设置随机种子来控制dataloader加载数据时的洗牌过程。在使用dataloader加载数据时,可以通过设置参数shuffle=True来开启洗牌功能。同时,我们可以通过设置参数torch.manual_seed(seed)来设置随机种子的值。这样,每次运行时,dataloader在洗牌数据时都会使用相同的随机种子,从而保证了每次的洗牌结果都是一致的。 例如,我们可以使用以下代码来设置随机种子为10,并开启洗牌功能: torch.manual_seed(10) dataloader = DataLoader(dataset, shuffle=True) 这样,每次运行时,dataloader都会使用相同的随机种子10进行数据洗牌,从而保证了每次的洗牌结果都是一致的。这对于实验结果的比较和模型的可复现非常重要。 总之,通过设置随机种子,我们可以在dataloader加载数据时控制洗牌过程,确保每次洗牌结果的一致,从而提高模型的可复现和实验的可比
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值