【机器学习】竞赛中随机种子优化的秘密。

作者:Agnis Liukis

随机种子优化

简 介

3190f29f9be1bd1a8a4635ad2f1962cf.png

很多朋友会好奇,优化随机种子是否有任何的含义,这看起来就像是一个没什么意义的事情。但是曾今kaggle有个GM通过优化随机种子拿到了更好的成绩。

  • 平时我们通过改变随机种子,会发现CV分数的在某个值附近随机变化。

我们可以认为,CV值的变化并不意味着任何东西,并且纯粹基于不同随机种子的,更好CV分数的模型并不比使用原始种子训练的相同模型更好。那么什么时候我们需要考虑对随机种子进行优化呢?

随机种子的使用

8f7780485af9a823c70ff940d6ed2d51.png

01

关于随机种子

随机种子被机器学习模型用于各种任务(在所有需要随机性)。对于基于树的模型,随机性可以确保所有树都不相同且具有不同的拆分。在基于树的模型中,树的多样性越多,结果应该越好。

  • 在树模型中,随机种子影响(以随机方式)将要创建的树

02

一棵树会比另外一棵树好吗?

  • 是的,它可以。

例如,假设我们有两个特征。其中一个包含真实信号,但另一个包含大部分噪声。可能发生的情况是,

  • 在一个树中,通过降采样移除真实特征,从而在考虑可能的最佳分割时使其不适用于模型。因此,该模型将首先通过噪声特征创建分割。

  • 在其他树中,噪声特征可能会被移除,这意味着第一次分割将由强特征完成。在这种情况下,基于真实强特征的第二棵树通常会更好。

03

结论

从上面的例子中,我们知道:

如果一个随机种子幸运地生成了比其他种子更优的树,在这种情况下,用第一个种子训练的模型确实比用另一个种子训练出的模型更好,因为在噪声特征上具有更多分裂的较弱树。

结论

cabf66b48db7b13f5934caeb2ce2ce1d.png

优化随机种子有意义吗?

  • 在大多数情况下,没任何意义;

  • 在某些特殊情况下,可能会有所不同。例如,如果满足以下两个条件:

    • 特征中存在预测能力特别强的结果。

    • 降采样或类似技术用于在每次迭代中随机丢弃特征子集。

在某些匿名的竞赛中尽可能多观察不同随机种子的结果,这个时候小小的发现或许能带来巨大的变化。

参考文献

752c69701c6328a78173ecd50bc06d8e.png

  1. https://medium.com/p/cbf3678845ff

  2. https://www.kaggle.com/datasets/alijs1/artificial-data-leaks

 
 

cdebf06a0af495595af86ea9f0d77ca5.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群772479961,加入微信群请扫码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值