最近首次尝试使用Python sklearn包的随机森林进行回归分析,首先用了train_test_split函数进行训练集和测试集的划分,结果在调参的时候发现random_state这个参数对结果的影响非常大。官网给的说明如下:
random_state:Controls the shuffling applied to the data before applying the split. Pass an int for reproducible output across multiple function calls.
意思就是设置一个随机数种子,这样每次进行样本划分的时候都是可以重复的。
如果将这个参数从1-100进行遍历设置的话,得到的模型拟合结果如下:
看到这个结果还是很懵逼的,不同的random state竟然差距那么大,甚至还有很多负值,然后我画图看了一下预测值的概率密度分布:
发现其实分布距离正态还有很远,所以我就想是不是应该对数据进行正态化,但是RF本来就是非线性模型,这条路应该是不行的,所以问题还是出在样本点代表性上,但是我的预测值又无法像图像那样可以进行增强。之后我找了一组R2最高的数据来看一下测试样本和预测数据的结果,发现有明显的两个异常值:
所以我就猜测应该是原始数据中有异常值。去除了3-σ之外的异常值之后果然就好了,再次画random state参数和R2的关系就可以看到比较平稳的曲线了。
第一次用RF就碰到这个bug真是太离谱了