Paper Reading《Torch.manual_seed(3407) is all you need: On the influence of random seeds in deep learning architectures for computer vision》
使用PTM在CIFAR10数据集上试验了10^4个种子,探究不用random seed的区别。结论是即使方差不是很大,也很容易找到一个表现比平均值好得多或差得多的异常值。
直接上Conclusion:
-
“What is the distribution of scores with respect to the choice of seed? ”
一旦模型收敛,这种分布就相对稳定,这意味着某些种子本质上比其他种子更好(intrinsically better)。
-
“Are there black swans, i.e., seeds that produce radically different results?”
在扫描 10^4 颗种子时,我们获得了接近 2% 的最大和最小精度之间的差异,这高于计算机视觉社区常用的被认为具有重要意义的阈值。”
-
“Does pretraining on larger datasets mitigate variability induced by the choice of seed?”
它确实减少了由于使用不同种子而导致的变化,但它并没有减轻它。 在 Imagenet 上,我们发现最大和最小精度之间的差异约为 0.5%,社区普遍认为该数据集具有显著性。
Addition, Andrej Karpathy也发表了看法: