random_state参数的神奇: 随机切割、KFold和机器学习_kfold的shuffle设定了seed能复现吗-CSDN博客

本文链接：https://blog.csdn.net/qq_37966884/article/details/117281438

random_state的使用场景：

kf = KFold(n_splits=10, shuffle=True, random_state = 42)
train_X, test_X, train_y, test_y = train_test_split(input, output, test_size=0.2, random_state=seed)
rf = RandomForestRegressor(n_estimators=100, criterion='mse', random_state=42)

初步了解：

(1) random_state的作用是设置一个随机种子用于控制随机过程，可以设置为None和其他数值。

(2) 使用固定数值时返回的数值一定，即可以复现；而设置为None的时候不可复现。

问题产生缘由：

对于某个模型，其验证方法有比例切割法以及K折交叉验证法。在实验的时候采用比例切割法时的效果不错，但是使用K折之后效果会变差。

(1) random_state设置为1时两者效果的对比：

发现效果会降低不少，按照输出来看有理由怀疑是数据集的分布问题（想过将数据进行聚类分析或者直接按季节先处理，再按比例随机提取），于是开始调整random_state。

(2) random_state = None 时两种分割方法整体上均有所提升，但由于其完全的随机性，不可复现。

再跑一次看看：

即设置为None的模型不稳定，虽性能有所提升，但无法保存且无法达到最优。

(3) 耶！问题来了，有没有即能得到可复现、效果优异的设置方法呢？

无疑中看到github上的一位大佬将random_state设置为42，心中一惊，好像之前也看过设置为42的情形，只不过没有留意。冲冲冲！！！

耶！小兔子乖乖拔萝卜~~ 效果不错~~

留个记录，以后再来研究

参考：神奇的种子42