性能度量
对于我们构建的模型的泛化能力进行评估,不仅我们需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准,就是性能度量(performance measure)
在对比不同模型的效果时,使用不同的性能度量往往会有不同的评判结果,即意味着模型的“好坏”是相对的,怎么样去使用对应的性能度量标准,还需要根据任务需求
在预测任务中,给出数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
.
.
.
(
x
m
,
y
m
)
}
D=\{{(x_1,y_1),(x_2,y_2)...(x_m,y_m)}\}
D={(x1,y1),(x2,y2)...(xm,ym)}
其中
x
i
x_i
xi是features,
y
i
y_i
yi是
x
i
x_i
xi的label值,评估模型
f
f
f的性能,就要将预测结果
f
(
x
)
f(x)
f(x)(一般我们会将预测结果记为
y
^
\hat y
y^)与label值
y
y
y进行比较。
回归(regression)任务的常用的性能度量
均方误差(MSE)
回归任务中最常用的性能度量是“均方误差”(mean squared error)
预测值与真实值之差的平方和的平均值
M
S
E
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
MSE=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2
MSE=m1i=1∑m(f(xi)−yi)2
特点:MSE对误差进行的平方,意味着误差值越大,其平方值更大,对大误差值会十分敏感。
均方根误差(RMSE)
均方根误差测量的是误差的标准差
M
S
E
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
MSE=\sqrt{\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2}
MSE=m1i=1∑m(f(xi)−yi)2
特点:进行开方的MSE其单位将会与原数据单位一致
平均绝对误差(MAE)
平均绝对误差MAE(Mean Absolute Error):
M
A
E
=
1
m
∑
i
=
1
n
∣
f
(
x
i
)
−
y
i
∣
MAE=\frac{1}{m} {\sum_{i=1}^{n} {|f(x_i)-{y_i}|} }
MAE=m1i=1∑n∣f(xi)−yi∣
特点:真实地表现出误差。
确定系数 R 2 R^2 R2 (R-Squared)
确定系数
R
2
R^2
R2是由
S
S
R
SSR
SSR和
S
S
T
SST
SST和
S
S
E
SSE
SSE决定的。
其中
f
(
x
i
)
f(x_i)
f(xi)是模型的预测结果,
y
i
y_i
yi是样本的abel值,
y
‾
\overline{y}
y表示样本label的均值。
回归平方和
S
S
R
SSR
SSR:Sum of Squares Of The Regression,即预测数据与原始数据均值之差平方和
S
S
R
=
S
S
r
e
g
=
∑
i
=
1
m
(
f
(
x
i
)
−
y
‾
)
2
SSR=SS_{reg}=\sum_{i=1}^{m}(f(x_i)-\overline{y})^2
SSR=SSreg=i=1∑m(f(xi)−y)2
总离差平方和
S
S
T
SST
SST:Total Sum Of Squares,即原始数据和均值之差的平方和
S
S
T
=
S
S
t
o
t
=
∑
i
=
1
m
(
y
i
−
y
‾
)
2
SST=SS_{tot}=\sum_{i=1}^{m}(y_i-\overline{y})^2
SST=SStot=i=1∑m(yi−y)2
残差平方和 SSE:Sum of Squares due to Error,即
S
S
E
=
S
S
r
e
s
=
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
SSE=SS_{res}=\sum_{i=1}^{m}(y_i-f(x_i))^2
SSE=SSres=i=1∑m(yi−f(xi))2
得到 R 2 R^2 R2的公式为:
R
2
=
1
−
S
S
E
(
S
S
r
e
s
)
S
S
T
(
S
S
t
o
t
)
=
1
−
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
∑
i
=
1
m
(
y
i
−
y
‾
)
2
R^2=1-\frac{SSE(SS_{res})}{SST(SS_{tot})}=1-\frac{\sum_{i=1}^{m}(y_i-f(x_i))^2}{\sum_{i=1}^{m}(y_i-\overline{y})^2}
R2=1−SST(SStot)SSE(SSres)=1−∑i=1m(yi−y)2∑i=1m(yi−f(xi))2
决定系数:用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1,值越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越 好。所以也称为拟合优度(Goodness of Fit)的统计量。