python sklearn模型中random_state参数的意义

最新推荐文章于 2025-04-23 18:59:51 发布

mai dong

最新推荐文章于 2025-04-23 18:59:51 发布

阅读量1w

点赞数 14

分类专栏： A---机器学习理论--模型建立优化文章标签： python sklearn 机器学习

原文链接：https://blog.csdn.net/xiaohutong1991/article/details/107923970

版权

A---机器学习理论--模型建立优化专栏收录该内容

1 篇文章

订阅专栏

一、前言
在学习机器学习的过程中，常常遇到random_state这个参数，并且好多时候都是 random_state=42，感觉挺有意思的，于是，百度一下，然后做一个总结。

作用：控制随机状态。

问题：为什么需要用到这样一个参数random_state（随机状态）？看完文章你就会知道了。

一句话概括：random_state是一个随机种子，是在任意带有随机性的类或函数里作为参数来控制随机模式。当random_state取某一个值时，也就确定了一种规则。

random_state可以用于很多函数，我比较熟悉的是用于以下三个地方：

1、训练集测试集的划分

2、构建决策树

3、构建随机森林

二：random_state的三种应用场所
2.1 划分训练集和测试集的类train_test_split
xtrain,xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2,random_state=42)
随机数种子控制每次划分训练集和测试集的模式，其取值不变时划分得到的结果一模一样，其值改变时，划分得到的结果不同。若不设置此参数，则函数会自动选择一种随机模式，得到的结果也就不同。

2.2 构建决策树的函数
clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=42,splitter="random")
其取值不变时，用相同的训练集建树得到的结果一模一样，对测试集的预测结果也是一样的；

其值改变时，得到的结果不同；

若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

2.3 构建随机森林
clf = RandomForestClassifier(random_state=0)
其取值不变时，用相同的训练集建森林得到的结果一模一样，对测试集的预测结果也是一样的；

其值改变时，建森林得到的结果不同；

若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

2.4 小结
如果你希望结果可以重现，固定random_state是非常重要的。

对于随机森林这个模型，它本质上是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变构建的模型。
对于数据集的生成，它本质上也是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变生成的数据集。
对于数据集的拆分，它本质上也是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变拆分的结果。

固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

三、总结
对于那些本质上是随机的过程，我们有必要控制随机的状态，这样才能重复的展现相同的结果。如果，对随机状态不加控制，那么实验的结果就无法固定，而是随机的显现。

因为同一算法模型在不同的训练集和测试集的会得到不同的准确率，无法调参。所以在sklearn 中可以通过添加random_state，通过固定random_state的值，每次可以分割得到同样训练集和测试集。因此random_state参数主要是为了保证每次都分割一样的训练集和测试机，大小可以是任意一个整数，在调参缓解，只要保证其值一致即可。

所以，至于random_state=？随你喽