sklearn机器学习：随机森林回归器RandomForestRegressor-CSDN博客

本文链接：https://blog.csdn.net/gracejpw/article/details/102611273

本文介绍了如何使用sklearn的RandomForestRegressor类进行回归分析，包括其重要参数、接口以及如何用随机森林填补数据中的缺失值。讨论了随机森林回归的评价指标如均方误差和R平方，并提供了用随机森林回归处理缺失值的策略，指出在某些情况下，随机森林回归的填补效果优于直接使用均值或0。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sklearn随机森林回归器类的格式

sklearn.ensemble.RandomForestRegressor (n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)
所有的参数，属性与接口，全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同，不纯度的指标，参数Criterion不一致。

重要参数，属性与接口

criterion
回归树衡量分枝质量的指标，支持的标准有三种：
1）输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失；
2）输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差；
3）输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失
在这里插入图片描述
其中N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi是样本点i实际的数值标签。所以MSE的本质，其实是样本真实数据与回归结果的差异。
在回归树中，MSE不只是分枝质量衡量指标，也是最常用的衡量回归树回归质量的指标，当使用交叉验证，或者其他方式获取回归树的结果时，往往选择均方误差作为评估（在分类树中这个指标是score代表的预测准确率）。在回归中，追求的是，MSE越小越好。
然而，回归树的接口score返回的是R平方，并不是MSE。R平方被定义如下：
在这里插入图片描述
其中u是残差平方和（MSE * N），v是总平方和，N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi是样本点i实际的数值标签。y帽是真实数值标签的平均数。R平方可以为正为负（如果模型的残差平方和远远大于模型的总平方和，模型非常糟糕，R平方就会为负），而均方误差永远为正。
值得一提的是，虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算”负均方误差“（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在
sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。

重要属性和接口

最重要的属性和接口，都与随机森林的分类器相一致，还是apply, fit,predict和score最为核心。值得一提的是，随机森林回归并没有predict_proba这个接口，因为对于回归来说，并不存在一个样本要被分到某个类别的概率问题，因此没有predict_proba这个接口。

随机森林回归用法

和决策树完全一致，除了多了参数n_estimators。

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10
				,scoring = "neg_mean_squared_error")

array([-10.72900447,  -5.36049859,  -4.74614178, -20.84946337,
       -12.23497347, -17.99274635,  -6.8952756 , -93.78884428,
       -29.80411702, -15.25776814])

#查看所有可以用的评估指标
import sklearn#必须先导入sklearn，否则会报错
sorted(sklearn.metrics.SCORERS.keys())

['accuracy',