机器学习预测结果评价的score方法取值分类及决定系数R^2(Coefficient of Determination)的原理及推导

score方法的取值分类

Python机器学习sklearn里的score()方法,主要用于度量给定测试集的预测效果的好坏。

当y为连续变量时,score的取值为R2;当y为分类变量时,score的取值为准确率accuracy。

其中:

R2 =(1-u/v),
u=((y_true - y_pred) ** 2).sum(),
v=((y_true - y_true.mean()) ** 2).sum();

accuracy=分类算法正确的分类数/总分类数。

决定系数R2(Coefficient of Determination)的性质

决定系数(记为R2或r2),亦称测定系数、可决系数、可决指数。与复相关系数类似的,在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例,以此来判断统计模型的解释力。

对于简单线性回归而言,判定系数为样本简单相关系数(记为R或r)的平方(简单相关系数又称皮尔逊相关系数或者线性相关系数)。当加入其他回归自变量后,决定系数相应地变为多重相关系数的平方。

R2的公式

R2 =(1-u/v),
u=((y_true - y_pred) ** 2).sum(),
v=((y_true - y_true.mean()) ** 2).sum()
或者:
R2=SSE/SST=1-SSR/SST

R2的原理

首先说明一下几个参数的定义:

离差

一个特定数值对于其平均值的偏离

变异

一变量的各数值对于其平均值的偏离,称为变异。通常用离差平方和来描述变异程度。

离差平方和

离差平方和又简称平方和(Sum of square)。

均方(Mean square)

平方和被相应的自由度去除,得到平均平方,简称为均方(Mean square)。

样本标准差

样本标准差就是被自由度(n-1)所平均x对于 x ‾ \overline{x} x的离差均方的算术平方根。

  • 5
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值