随机森林结果非常依赖样本划分

最近首次尝试使用Python sklearn包的随机森林进行回归分析,首先用了train_test_split函数进行训练集和测试集的划分,结果在调参的时候发现random_state这个参数对结果的影响非常大。官网给的说明如下:
random_state:Controls the shuffling applied to the data before applying the split. Pass an int for reproducible output across multiple function calls.
意思就是设置一个随机数种子,这样每次进行样本划分的时候都是可以重复的。
如果将这个参数从1-100进行遍历设置的话,得到的模型拟合结果如下:
在这里插入图片描述

看到这个结果还是很懵逼的,不同的random state竟然差距那么大,甚至还有很多负值,然后我画图看了一下预测值的概率密度分布:
在这里插入图片描述

发现其实分布距离正态还有很远,所以我就想是不是应该对数据进行正态化,但是RF本来就是非线性模型,这条路应该是不行的,所以问题还是出在样本点代表性上,但是我的预测值又无法像图像那样可以进行增强。之后我找了一组R2最高的数据来看一下测试样本和预测数据的结果,发现有明显的两个异常值:
在这里插入图片描述

所以我就猜测应该是原始数据中有异常值。去除了3-σ之外的异常值之后果然就好了,再次画random state参数和R2的关系就可以看到比较平稳的曲线了。

在这里插入图片描述
第一次用RF就碰到这个bug真是太离谱了

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python中的随机森林是一种强大的机器学习算法,可以用于预测数据的分类样本。下面是一个使用Python中的随机森林进行分类预测的例子。 首先,我们需要导入相应的库,例如使用sklearn库中的RandomForestClassifier类进行随机森林分类预测,以及其他需要的库: ```python from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score ``` 接着,我们需要准备数据集。通常,我们会将数据集分为特征矩阵(features)和目标变量(target)。特征矩阵包含了我们用于预测的特征变量,而目标变量则是我们要预测的分类结果。 ```python # 准备特征矩阵和目标变量 features = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] target = [0, 1, 1] ``` 接下来,我们将数据集分为训练集和测试集: ```python # 将数据集分为训练集和测试集 train_features, test_features, train_target, test_target = train_test_split(features, target, test_size=0.2, random_state=0) ``` 然后,我们可以创建一个随机森林分类器并进行训练: ```python # 创建随机森林分类器 rf = RandomForestClassifier(n_estimators=10) # 训练模型 rf.fit(train_features, train_target) ``` 最后,我们可以使用训练好的模型对测试集进行预测,然后计算预测的准确率: ```python # 对测试集进行预测 predict_target = rf.predict(test_features) # 计算准确率 accuracy = accuracy_score(test_target, predict_target) ``` 以上就是使用Python中的随机森林进行分类预测的基本步骤。请注意,这里只是一个简单的示例,实际使用时可能需要对数据进行预处理、调参等。随机森林是一个强大的机器学习算法,可以处理各种类型的数据,并且因为其集成了多个决策树,准确率通常很高,是常用的分类预测算法之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值