Pytorch Dataloader中的随机数种子对训练结果的影响

最新推荐文章于 2024-05-10 11:59:46 发布

LeoLee77

最新推荐文章于 2024-05-10 11:59:46 发布

阅读量1.6k

点赞数 3

分类专栏： pytorch学习文章标签： pytorch 深度学习 python 神经网络机器学习

本文链接：https://blog.csdn.net/LeoLee77/article/details/129301927

版权

问题：

最近在训练网络时遇到一个比较费解的地方：两个看似无关的setting会影响网络的训练结果，train loss 和metrics都会变。①是设置不同的num_workers，②是用不同的epoch interval在test set上进行evaluation（比如training过程中用 $n$ 个epoch测一次）。

分析过程：

用的codebase是基于deit和mae的finetune代码，data-augmentation用的就是timm中imagenet的augmentation。检查过了②的train loss curve到底从哪里开始出现差异的，发现就是因为中间多进行了一步evaluate过后就开始变化。但是此时的模型参数和dataloader.dataset.sampler给的index都是一样的，也就是说在这个时刻的模型和用来预备train的数据原图都是一致的，但是经过Dataloader之后的images有差异，所以就是data-augmentation不一样了。尝试关掉data-augmentation后发现上述的差异确实消失了，然后因为采用了rand-augmentation，所以猜测和random的状态有关。

关于随机数生成：随机函数的随机数种子决定了之后生成的随机数序列（RNG，random number generator），而每次调用了随机函数就会往后面一位移动。所以这个问题的本质就是evaluate在什么地方额外用了随机函数，让两个training的随机数序列错位了。

codebase里面关于随机数生成的参数有三种：torch.random, numpy.random, 还有一个python自己的 random。训练开始的时候固定了随机种子，然后打印了这三种random函数在evaluate/ without evaluate 生成的随机数，**发现evaluate前后只有torch.random的状态变化了，其他两种的状态都是对齐的。**在timm的data-augmentation里面这三种随机函数貌似都有用到：本文中用到的主要有RadomResizedInterpolartion, RandomAugmentation，还有HorizentalFlip，然而源码里面只有HorizentalFlip里面用了一个torch.rand，其他两个都只用了numpy.random或者random。按理来说这三种随机函数的随机序列是相互独立的，所以关掉这个HorizentalFlip应该就可以消除augmentation的差异了，然而试过之后发现并不行。挨个把这几个函数给关掉，发现只要有随机的东西就是不行，不管它是由哪一种random实现的。

既然这个差异是由于evaluate带来的，接下来就排查evaluate进行了哪些操作会影响到torch.random。最后发现是因为调用过Dataloader。

求助师兄和我一起看，发来了一个

最低0.47元/天解锁文章

LeoLee77

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
Pytorch Dataloader中的随机数种子对训练结果的影响

将Dataloader看作一个新的随机函数F，没有特殊定义的话，它内部是worker-independent的，其内部的随机数序列由F被调用时从取来的决定，而这个取数过程会在Global的的随机序列中消耗两次。Dataloader在工作时对随机函数的使用不会影响main函数中其他random函数的状态。总之，在训练网络时注意的点就是如果在其他地方改动了torch.random的随机序列，导致Dataloader在调用时的随机状态不一样了，那么训练结果就会变掉。
复制链接

扫一扫