所有的参数,属性与接口,全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同,不纯度的指标, 参数Criterion
不一致。
RandomForestRegressor(n_estimators='warn',
criterion='mse',
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features='auto',
max_leaf_nodes=None,
min_impurity_decrease=0.0,
min_impurity_split=None,
bootstrap=True,
oob_score=False,
n_jobs=None,
random_state=None,
verbose=0,
warm_start=False)
重要参数,属性与接口
criterion
回归树衡量分枝质量的指标,支持的标准有三种
- 输入
"mse"
使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。 - 输入
"friedman_mse"
使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。 - 输入
"mae"
使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来最小化L1损失。
其中是样本数量,i是每一个数据样本,是模型回归出的数值,是样本点i实际的数值标签。所以MSE的本质是样本真实数据与回归结果的差异。在回归树中,MSE不只是我们的分枝质量衡量指标,也是我们最常用的衡量回归树回归质量的指标,当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作为我们的评估(在分类树中这个指标是score代表的预测准确率)。在回归中,我们追求的是,MSE越小越好。
然而,回归树的接口score返回的是R平方,并不是MSE。此处可参考线性回归中模型评估指标。
最重要的属性和接口,都与随机森林的分类器相一致,还是apply, fit, predict和score
最为核心。值得一提的是,随机森林回归并没有predict_proba
这个接口,因为对于回归来说,并不存在一个样本要被分到某个类别的概率问题,因此没有predict_proba