随机森林回归器

最新推荐文章于 2024-10-09 17:04:02 发布

功夫大笨鲨

最新推荐文章于 2024-10-09 17:04:02 发布

阅读量1.6k

点赞数 1

分类专栏：随机森林学习笔记文章标签： sklearn 机器学习

本文链接：https://blog.csdn.net/m0_50572604/article/details/120841636

版权

随机森林学习笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文章目录

前言
一、重要参数
- criterion
二、重要属性和接口
三、随机森林回归用法
总结

前言

所有的参数，属性与接口，全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同，不纯度的指标，参数Criterion不一致。

一、重要参数

criterion

回归树衡量分支质量的指标，支持标准有三种：

输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失
输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失

MSE公式

$MSE=\frac{1}{N} \sum_{i=1}^{N} (f_i-y_i)^2$
- N：样本数量
- i：每一个数据样本
- $f_i$ ：模型回归出的数值
- $y_i$ ：样本点i实际的数值标签
MSE的本质： 样本真实数据与回归结果的差异

在回归树中，MSE不只是我们的分枝质量衡量指标，也是我们最常用的衡量回归树回归质量的指标。

当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。

在回归中，我们追求的是，MSE越小越好。然而，回归树的接口score返回的默认是R平方（R方越接近1越好），并不是MSE，在使用时可以规定使用MES还是R平方，但是我们通常不使用R平方。R平方被定义如下：
$R^2=1-\frac{u}{v}$
$u=\sum_{i=1}^{N} (f_i-y_i)^2$
$v=\sum_{i=1}^{N}(y_i-\bar{y})^2$

u：残差平方和（MSE * N）
v：总平方和
N：样本数量
i：每一个数据样本
$f_i$ ：模型回归出的数值
$y_i$ ：样本点i实际的数值标签
$\bar{y}$ ：真实数值标签的平均数

R平方可以为正为负（如果模型的残差平方和远远大于模型的总平方和，模型非常糟糕，R平方就会为负），而均方误差永远为正。

虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算负均方误差（neg_mean_squared_error），这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。

二、重要属性和接口

都与随机森林分类器一致，不过并没有predict_proba这个接口，因为对于回归来说，并不存在一个样本要被分到某个类别的概率问题，因此没有predict_proba这个接口。

fit
apply
predict
score

重要属性及接口详细看随机森林分类器

三、随机森林回归用法

同决策树一样，只不过多了一个n_estimators参数

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10
               ,scoring = "neg_mean_squared_error")

注意
返回十次交叉验证的结果，注意在这里，如果不填写scoring = “neg_mean_squared_error”，交叉验证默认的模型衡量指标是R平方，因此交叉验证的结果可能有正也可能有负。而如果写上scoring，则衡量标准是负MSE，交叉验证的结果只可能为负。
如果不知道scoring应该选什么参数，可以通过下面方法来查询参数