Sklearn模型中预测值的R2_score为负数的问题探讨

最新推荐文章于 2024-06-23 21:22:32 发布

一壶浊酒2018

最新推荐文章于 2024-06-23 21:22:32 发布

阅读量4.8w

点赞数 14

分类专栏：机器学习文章标签： Sklearn R2_score 模型选择

本文链接：https://blog.csdn.net/weixin_42868552/article/details/86683635

版权

机器学习专栏收录该内容

3 篇文章 3 订阅

订阅专栏

Sklearn.metrics下面的r2_score函数用于计算R²（确定系数：coefficient of determination）。它用来度量未来的样本是否可能通过模型被很好地预测。分值为1表示最好，但我们在使用过程中，经常发现它变成了负数，多次手动调参只能改变负值的大小，却始终不能让该值变成正数。
本文将这一问题进行一些初步探讨，希望能起到够抛砖引玉的作用。
R²的定义如下：![Alt]在这里插入图片描述从公式来看，即使我们不使用任何模型，仅仅用目标集标签的平均值，就能让R2_score为0，如果值为负数，则表示我们预测的结果还不如测试集中的y_label的平均值准确。下面我们最简单的模型去测试一下R2_score到底跟什么有关系。
首先，我们先在三维空间里构建两个数据集。一个是z=y的一次平面，数据集在这个平面上。另外一个是z=xx+yy的二次抛物曲面，数据来自这个平面上。废话不多说，上代码：

import sklearn
from sklearn import preprocessing
from sklearn import linear_model
from sklearn.metrics import r2_score#R square
from sklearn.svm import SVR

构建z=y平面

X1_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y1_train = [0,1,0,1,0,0,-3,-1]

X1_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y1_test = [-1,2 ,-2,1.5,-1.5]

构建z= xx+yy平面

X2_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y2_train = [0,1,1,2,4,4,10,2]

X2_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y2_test = [5,4 ,5,4.5,4.5]

调用sklearn中的SVR回归模型，并使用R2_score进行预测结果的评测。

#clf_SVR = SVR(kernel='poly',C=10,degree=2)
#clf_SVR = SVR(kernel='poly',C=10)
#clf_SVR = SVR()
clf_SVR = SVR(kernel='linear',C=10)
clf_SVR.fit(X_train, y_train)
y_train_forcast = clf_SVR.predict(X_train)
print ('SVR_train_model prediction is', sklearn.metrics.r2_score(y_train,y_train_forcast))

y_test_forcast = clf_SVR.predict(X_test)
print('y_test_forcast are',y_test_forcast)
print ('SVR_test_model prediction is', sklearn.metrics.r2_score(y_test,y_test_forcast))

将上面的各个模型跑一边就会发现不同的结果。
1、当我们使用z= xx+yy平面数据集时，如果用clf_SVR = SVR(kernel=‘linear’,C=10)参数预测，输出结果为：

SVR_train_model prediction is 0.617986574585546
y_test_forcast are [ 6.04290571 -1.24293971  6.899932    0.47141886  5.61418858]
SVR_test_model prediction is -69.93813277070895

从上面的预测结果看，y_test_forcast与真实的y2_test = [5,4 ,5,4.5,4.5]差别巨大。下面我们换用一次的z=y平面数据集进行一次测试，结果如下：

SVR_train_model prediction is 0.9965217391304347
y_test_forcast are [-1.     1.85  -1.95   1.375 -1.475]
SVR_test_model prediction is 0.9968984962406015

这次再看y_test_forcast与真实的y2_test = [5,4 ,5,4.5,4.5]，结果出奇的好。为什么会这样呢？仔细看一下我们使用的SVR核函数为linear，所以，这个模型是用来拟合一次线性关系的数据的模型，所以我们把二次曲面z= xx+yy平面数据在这个模型上去拟合，就会出现预测误差非常大的情况，R2_score，居然为负数。

希望这个实验能给大家一些启发，kernel模型的选取对最终的模型是否成功关系巨大，有兴趣的网友还可以试试z= xx+yy平面数据在SVR（）默认参数（即高斯核），在SVR(kernel=‘poly’,C=10,degree=2)和SVR(kernel=‘poly’,C=10)的情况下，R2_score结果对比情况。

综上所述，sklearn.svm参数模型非常好用，但是一定要注意自己模型的大概情况，并且要使用与数据分布类似的核函数去模拟，不可以直接拿SVM的默认值当黑盒一样，直接无脑调用fit（）函数，那么很可能预测的结果与我们的期望大相径庭。

一壶浊酒2018

关注

14
点赞
踩
79

收藏

觉得还不错? 一键收藏
6
评论
Sklearn模型中预测值的R2_score为负数的问题探讨

@[TOC]Sklearn模型中预测值的R2_score为负数的问题探讨Sklearn.metrics下面的r2_score函数用于计算R²（确定系数：coefficient of determination）。它用来度量未来的样本是否可能通过模型被很好地预测。分值为1表示最好，但我们在使用过程中，经常发现它变成了负数，多次手动调参只能改变负值的大小，却始终不能让该值变成正数。本文将这一问题进...
复制链接

扫一扫