机器学习评价指标

分类模型的评价标准

混淆矩阵

混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。下面给出二分类的混淆矩阵

Predicted as PositivePredicted as Negative
Labeled as PositiveTrue Positive(TP)False Negative(FN)
Labeled as NegativeFalse Positive(FP)True Negative(TN)

如上表,可以将结果分为四类:
* 真正例(True Positive, TP):真实类别为正例,预测类别为正例;
* 假负例(False Negative, FN):真实类别为正例,预测类别为负例;
* 假正例(False Positive, FP):真实类别为负例,预测类别为正例 ;
* 真负例(True Negative, TN):真实类别为负例,预测类别为负例;

进一步可以推出这些指标:
* 真正率(True Positive Rate, TPR),又名灵敏度(Sensitivity):被预测为正的正样本数 / 正样本实际数,即: TPR=TPTP+FN T P R = T P T P + F N
* 假负率(False Negative Rate, FNR):被预测为负的正样本数/正样本实际数,即: FNR=FNTP+FN F N R = F N T P + F N
* 假正率(False Positive Rate, FPR):被预测为正的负样本数/负样本实际数,即: FPR=FPFP+TN F P R = F P F P + T N
* 真负率(True Negative Rate, TNR),特异度(Specificity):被预测为负的负样本数/负样本实际数,即: TNR=TNFP+TN T N R = T N F P + T N

进一步,由混淆矩阵可以计算以下评价指标:

  • 准确率(Accuracy):分类正确的样本数/所有样本数量,即: ACC=TP+TNTP+FN+FP+TN A C C = T P + T N T P + F N + F P + T N

  • 平均准确率(Average per-class accuracy):每个类别下的准确率的算术平均,即: Ave_Acc=TPTP+FN+TNTN+FP2 A v e _ A c c = T P T P + F N + T N T N + F P 2

  • 错误率:分类错误的样本/所有样本的数量,即: Error=FN+FPTP+FN+FP+TN E r r o r = F N + F P T P + F N + F P + T N

精确率和召回率
  • 精确率,又称查准率(Precision):正样本的预测数/被预测为正样本的数量(注意:精确率和准确率不同),即: P=TPTP+FP P = T P T P + F P ;挑出的西瓜中有多少比例是好瓜

  • 召回率(Recall)又称查全率:分类正确的正样本个数占正样本个数的比例,即: R=TPTP+FN R = T P T P + F N 所有好瓜中有多少比例被挑出来

分析:查准率和查全率是一对矛盾的度量。
若要让查准率比较高,则只挑最有把握的瓜,则难免会漏掉不少好瓜,查全率较低;若要查全率比较高,则通过增加选瓜的数量来实现,若全部瓜都参选,则查全率最高,此时,查准率较低;
应用:在推荐系统中,为了少打扰用户,则查准率比较高;在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,则查全率比较高。

F1-Score

在介绍F1-Score之前,首先介绍调和平均值,调和平均值为:总体各统计量的倒数的算术平均数的倒数;

F1 F 1 度量的一般形式—— Fβ F β 能够表达对查询率 和查询率的不同偏好:

Fβ=(1+β2)PR(β2P)+R F β = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R

其中, β>1 β > 1 时,查全率更有影响; β=1 β = 1 时,退化为标准的 F1 F 1 β<1 β < 1 时,查准率更有影响。

F1值的一般形式为查询率和查全率的调和均值。
2F1=1P+1R 2 F 1 = 1 P + 1 R

ROC和AUC

ROC曲线的横轴为“假正例率”,纵轴为“真正例率”。
AUC为ROC曲线下的面积。
应用
在测试集中,正负样本的分布变化的时候,ROC曲线能够保持不变。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654

Kappa系数

Kappa系数用于一致性检验,Kappa计算结果为[-1, 1],但通常kappa是落在0~1之间,可分为五组表示不同级别的一致性。

大小一致性程度
0.0 ~ 0.20极低的一致性
0.21 ~ 0.40一般的一致性
0.41 ~ 0.60中等的一致性
0.61 ~ 0.80高度的一致性
0.81 ~ 1几乎完全一致

公式: kappa=PoPe1Pe k a p p a = P o − P e 1 − P e
其中,P_o为样本整体分类准确度
假设每一类的真实样本个数为:a_1, a_2, …, a_C;预测出来的每一类样本个数为:b_1, b_2, …, b_C;样本总个数为n

Pe=a1b1+a2b2+...+aCbCnn P e = a 1 ∗ b 1 + a 2 ∗ b 2 + . . . + a C ∗ b C n ∗ n

回归模型评价标准

绝对误差 MAE

MSE=1mi=1m|f(xi)yi| M S E = 1 m ∑ i = 1 m | f ( x i ) − y i |

均方误差MSE

MSE=1mi=1m(f(xi)yi)2 M S E = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2

均方根误差RMSE

RMSE为MSE的算术平方根

RMSE=MSE R M S E = M S E

缺点:因使用平均误差,平均误差对异常值比较敏感,异常值的出现,使得RMSE的误差较大。

R2 R 2 (决定系数)

R2=1mi=1(f(xi)yi)2mi=1(f(xi)yi)2 R 2 = 1 − ∑ i = 1 m ( f ( x i ) − y i ) 2 ∑ i = 1 m ( f ( x i ) − y i ¯ ) 2

  • 数学理解:分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,两者相除可以消除原始数据离散程度的影响。
  • 理论上取值 (,1] ( − ∞ , 1 ] ,正常取值范围为[0, 1]
    越接近1,模型对数据拟合的越好。
    越接近0,表明模型拟合的越差。
  • 缺点:
    数据集的样本越大, R2 R 2 越大。不同数据集的模型结果比较会有一定的误差。
Adjusted R-Square(校正决定系数)

R2 R 2 _adjusted=1(1R2)(n1)np1 _ a d j u s t e d = 1 − ( 1 − R 2 ) ( n − 1 ) n − p − 1
n为样本数量,p为特征数量
消除了样本数量和特征数量的影响。
参考资料:
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2:https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa:https://blog.csdn.net/xtingjie/article/details/72803029

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值