Sklearn模型中预测值的R2_score为负数的问题探讨

Sklearn.metrics下面的r2_score函数用于计算R²(确定系数:coefficient of determination)。它用来度量未来的样本是否可能通过模型被很好地预测。分值为1表示最好,但我们在使用过程中,经常发现它变成了负数,多次手动调参只能改变负值的大小,却始终不能让该值变成正数。
本文将这一问题进行一些初步探讨,希望能起到够抛砖引玉的作用。
R²的定义如下:![Alt]在这里插入图片描述从公式来看,即使我们不使用任何模型,仅仅用目标集标签的平均值,就能让R2_score为0,如果值为负数,则表示我们预测的结果还不如测试集中的y_label的平均值准确。下面我们最简单的模型去测试一下R2_score到底跟什么有关系。
首先,我们先在三维空间里构建两个数据集。一个是z=y的一次平面,数据集在这个平面上。另外一个是z=xx+yy的二次抛物曲面,数据来自这个平面上。废话不多说,上代码:

import sklearn
from sklearn import preprocessing
from sklearn import linear_model
from sklearn.metrics import r2_score#R square
from sklearn.svm import SVR

构建z=y平面

X1_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y1_train = [0,1,0,1,0,0,-3,-1]

X1_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y1_test = [-1,2 ,-2,1.5,-1.5]

构建z= xx+yy平面

X2_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y2_train = [0,1,1,2,4,4,10,2]

X2_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y2_test = [5,4 ,5,4.5,4.5]

调用sklearn中的SVR回归模型,并使用R2_score进行预测结果的评测。

#clf_SVR = SVR(kernel='poly',C=10,degree=2)
#clf_SVR = SVR(kernel='poly',C=10)
#clf_SVR = SVR()
clf_SVR = SVR(kernel='linear',C=10)
clf_SVR.fit(X_train, y_train)
y_train_forcast = clf_SVR.predict(X_train)
print ('SVR_train_model prediction is', sklearn.metrics.r2_score(y_train,y_train_forcast))

y_test_forcast = clf_SVR.predict(X_test)
print('y_test_forcast are',y_test_forcast)
print ('SVR_test_model prediction is', sklearn.metrics.r2_score(y_test,y_test_forcast))

将上面的各个模型跑一边就会发现不同的结果。
1、当我们使用z= xx+yy平面数据集时,如果用clf_SVR = SVR(kernel=‘linear’,C=10)参数预测,输出结果为:

SVR_train_model prediction is 0.617986574585546
y_test_forcast are [ 6.04290571 -1.24293971  6.899932    0.47141886  5.61418858]
SVR_test_model prediction is -69.93813277070895

从上面的预测结果看,y_test_forcast与真实的y2_test = [5,4 ,5,4.5,4.5]差别巨大。下面我们换用一次的z=y平面数据集进行一次测试,结果如下:

SVR_train_model prediction is 0.9965217391304347
y_test_forcast are [-1.     1.85  -1.95   1.375 -1.475]
SVR_test_model prediction is 0.9968984962406015

这次再看y_test_forcast与真实的y2_test = [5,4 ,5,4.5,4.5],结果出奇的好。为什么会这样呢?仔细看一下我们使用的SVR核函数为linear,所以,这个模型是用来拟合一次线性关系的数据的模型,所以我们把二次曲面z= xx+yy平面数据在这个模型上去拟合,就会出现预测误差非常大的情况,R2_score,居然为负数。

希望这个实验能给大家一些启发,kernel模型的选取对最终的模型是否成功关系巨大,有兴趣的网友还可以试试z= xx+yy平面数据在SVR()默认参数(即高斯核),在SVR(kernel=‘poly’,C=10,degree=2)和SVR(kernel=‘poly’,C=10)的情况下,R2_score结果对比情况。

综上所述,sklearn.svm参数模型非常好用,但是一定要注意自己模型的大概情况,并且要使用与数据分布类似的核函数去模拟,不可以直接拿SVM的默认值当黑盒一样,直接无脑调用fit()函数,那么很可能预测的结果与我们的期望大相径庭。

  • 14
    点赞
  • 79
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值