机器学习——回归树（参数、属性和接口）

最新推荐文章于 2023-03-08 16:18:42 发布

郭雅琦hh

最新推荐文章于 2023-03-08 16:18:42 发布

阅读量622

点赞数

分类专栏：机器学习（毕业设计）文章标签：大数据算法

原文链接：https://blog.csdn.net/R18830287035/article/details/89216702

版权

机器学习（毕业设计）专栏收录该内容

5 篇文章 2 订阅

订阅专栏

回归树的重要参数criterion包括mse（均方误差）、friedman_mse（改进后的均方误差）和mae（绝对平均误差）。MSE是评估回归树性能的常用指标，它衡量的是预测值与真实值的差异。R平方是另一个评价指标，它是残差平方和与总平方和的比值。在sklearn中，score返回的是R平方，而负均方误差（neg_mean_squared_error）用于表示损失。

摘要由CSDN通过智能技术生成

回归树之重要参数，属性及接口

criterion
回归树衡量分枝质量的指标，支持的标准有三种：
1）输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为
特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失
2）输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
3）输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失
属性中最重要的依然是feature_importances_，接口依然是apply, fit, predict, score最核心。
在这里插入图片描述

其中N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi是样本点i实际的数值标签。所以MSE的本质，其实是样本真实数据与回归结果的差异。在回归树中，MSE不只是我们的分枝质量衡量指标，也是我们最常用的衡量回归树回归质量的指标，当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。

然而，回归树的接口score返回的是R平方，并不是MSE。R平方被定义如下：
在这里插入图片描述

其中u是残差平方和（MSE * N），v是总平方和，N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi
是样本点i实际的数值标签。y帽是真实数值标签的平均数。R平方可以为正为负（如果模型的残差平方和远远大于
模型的总平方和，模型非常糟糕，R平方就会为负），而均方误差永远为正。
值得一提的是，虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算”负均方误差“（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。