作者:Agnis Liukis
随机种子优化
简 介
很多朋友会好奇,优化随机种子是否有任何的含义,这看起来就像是一个没什么意义的事情。但是曾今kaggle有个GM通过优化随机种子拿到了更好的成绩。
平时我们通过改变随机种子,会发现CV分数的在某个值附近随机变化。
我们可以认为,CV值的变化并不意味着任何东西,并且纯粹基于不同随机种子的,更好CV分数的模型并不比使用原始种子训练的相同模型更好。那么什么时候我们需要考虑对随机种子进行优化呢?
随机种子的使用
01
关于随机种子
随机种子被机器学习模型用于各种任务(在所有需要随机性)。对于基于树的模型,随机性可以确保所有树都不相同且具有不同的拆分。在基于树的模型中,树的多样性越多,结果应该越好。
在树模型中,随机种子影响(以随机方式)将要创建的树。
02
一棵树会比另外一棵树好吗?
是的,它可以。
例如,假设我们有两个特征。其中一个包含真实信号,但另一个包含大部分噪声。可能发生的情况是,
在一个树中,通过降采样移除真实特征,从而在考虑可能的最佳分割时使其不适用于模型。因此,该模型将首先通过噪声特征创建分割。
在其他树中,噪声特征可能会被移除,这意味着第一次分割将由强特征完成。在这种情况下,基于真实强特征的第二棵树通常会更好。
03
结论
从上面的例子中,我们知道:
如果一个随机种子幸运地生成了比其他种子更优的树,在这种情况下,用第一个种子训练的模型确实比用另一个种子训练出的模型更好,因为在噪声特征上具有更多分裂的较弱树。
结论
优化随机种子有意义吗?
在大多数情况下,没任何意义;
在某些特殊情况下,可能会有所不同。例如,如果满足以下两个条件:
特征中存在预测能力特别强的结果。
降采样或类似技术用于在每次迭代中随机丢弃特征子集。
在某些匿名的竞赛中尽可能多观察不同随机种子的结果,这个时候小小的发现或许能带来巨大的变化。
参考文献
https://medium.com/p/cbf3678845ff
https://www.kaggle.com/datasets/alijs1/artificial-data-leaks
往期精彩回顾
适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群772479961,加入微信群请扫码