定义:性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能度量往往会得到不同的评判结果。
一、回归问题
平均绝对误差MAE(L1-loss):
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true-y_pred)
均方误差MSE(L2-loss):
from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)
均方根误差RMSE:
rmse = np.sqrt(mean_squared_error(y_true,y_pred))
MAE,MSE,RMSE的联系与区别:
1.取值范围都是0~∞
2.MAE,RMSE的单位与预测目标一致,MSE不同
3.他们对预测错误的正负不敏感
4.三者的值越小,预测效果越好
5.RMSE会将误差增大,MAE反之更有鲁棒性
R方系数:
R^2反映预测值与真实值之间的符合程度,其值为1代表完美拟合,其值为0,预测值就是真实值的平均值,其值小于0,糟糕的拟合。
二、分类问题
错误率与精度,通俗易懂。
但是,当类别严重不均衡的情况下,单使用精度来评估,是没有意义的。因为假设有95个0,5个1,我即使不使用任何算法,单一的全部猜测100个全是0,我的精度也能高达95%。
混淆矩阵:
TN:True Negative
TP:True Positive
FP:False Positive
FN:False Negative
查准率Precision:TP/(TP+FP)
查全率Recall:TP/(TP+FN)
F1-score = 2*TP/(2*TP+FP+FN)
相关系数C(选学)
马修斯相关系数MCC:TP*TN-FP*FN/(sqrt((TP+FP)(TP+FN)(TN+FP)(TN+FN))
MCC的特点:取值范围-1~1,越大代表预测越完美;指定的Positive不同时,MCC不变,F1-score会变。
Fβ-score: