随机森林结果非常依赖样本划分

最新推荐文章于 2025-04-12 16:40:08 发布

陌云漫步

最新推荐文章于 2025-04-12 16:40:08 发布

阅读量1.1k

点赞数 3

分类专栏：机器学习文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39085138/article/details/119717572

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

最近首次尝试使用Python sklearn包的随机森林进行回归分析，首先用了train_test_split函数进行训练集和测试集的划分，结果在调参的时候发现random_state这个参数对结果的影响非常大。官网给的说明如下：
random_state：Controls the shuffling applied to the data before applying the split. Pass an int for reproducible output across multiple function calls.
意思就是设置一个随机数种子，这样每次进行样本划分的时候都是可以重复的。
如果将这个参数从1-100进行遍历设置的话，得到的模型拟合结果如下：
在这里插入图片描述

看到这个结果还是很懵逼的，不同的random state竟然差距那么大，甚至还有很多负值，然后我画图看了一下预测值的概率密度分布：
在这里插入图片描述

发现其实分布距离正态还有很远，所以我就想是不是应该对数据进行正态化，但是RF本来就是非线性模型，这条路应该是不行的，所以问题还是出在样本点代表性上，但是我的预测值又无法像图像那样可以进行增强。之后我找了一组R2最高的数据来看一下测试样本和预测数据的结果，发现有明显的两个异常值：
在这里插入图片描述

所以我就猜测应该是原始数据中有异常值。去除了3-σ之外的异常值之后果然就好了，再次画random state参数和R2的关系就可以看到比较平稳的曲线了。

在这里插入图片描述
第一次用RF就碰到这个bug真是太离谱了

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。