模型评价指标

原创已于 2024-06-10 01:09:17 修改 · 2.3k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #模型评价

于 2024-06-05 17:35:25 首次发布

回归问题

均方误差（MSE）

均方误差（Mean Square Error）简称MSE，公式如下：
在这里插入图片描述

均方根误差（RMSE）

均方根误差（Root Mean Square Error）简称RMSE，公式如下：
在这里插入图片描述

平均绝对误差（MAE）

平均绝对误差（Mean Absolute Error），简称MAE，公式如下：
在这里插入图片描述

平均绝对百分比误差（MAPE）

平均绝对百分比误差（Mean Absolute Percentage Error），简称MAPE，公式如下：
在这里插入图片描述

分类问题

混淆矩阵

在这里插入图片描述
TP(True Positive，真阳性)：样本的真实类别是正类，并且模型预测的结果也是正类。
FP(False Positive，假阳性)：样本的真实类别是负类，但是模型将其预测成为正类。
TN(True Negative，真阴性)：样本的真实类别是负类，并且模型将其预测成为负类。
FN(False Negative，假阴性)：样本的真实类别是正类，但是模型将其预测成为负类。

准确率（Accuracy）

准确率是指预测正确的结果占总样本的百分比，公式如下：

Accuracy=(TP+TN)/(TP+TN+FP+FN)

注意：当样本不平衡时，准确率不适合作为衡量指标，即样本不平衡时，准确率就会失效。如：一个总样本中，正样本占90%，负样本占10%，样本是严重不平衡的，此时我们只需要将全部样本预测为正样本就可得到90%的高准确率。

精确率/查准率（Precision）

精确率/查准率是指所有被预测为正的样本中实际为正的样本的概率（不准错，宁愿漏检，也不能让现有的预测有错），公式如下：

Precision=TP/(TP+FP)

召回率/查全率（Recall TPR）

召回率/查全率是指实际为正的样本中被预测为正样本的概率（不准漏，宁可错杀一千，也不放过一个），公式如下：

Recall=TP/(TP+FN)

F-score

F-Score是可以综合考虑精确度（Precision）和召回率（Recall）的调和值，公式如下：
在这里插入图片描述
当我们认为精确度更重要，调整β < 1
当我们认为召回率更重要，调整β > 1
当β = 1 时，精确度和召回率权重相同。此时称为F1-Score或F1-Measure。
F1-score
公式（即β = 1）:

PR曲线

P-R曲线就是精确率precision vs 召回率recall 曲线，以recall作为横坐标轴，precision作为纵坐标轴。根据分类器的预测结果从大到小对样例进行排序，逐个把样例加入正例进行预测，算出此时的P、R值。
在这里插入图片描述
如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。但是A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值；平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。

ROC曲线/AUC值

ROC曲线: 与前面的P-R曲线相似，根据分类器的预测结果从大到小对样例进行排序，逐个把样例加入正例进行预测，每次计算出TPR和FPR，分别以它们为横、纵坐标作图，就得到了 “ROC曲线”，ROC曲线的纵轴是“真正例率” (True Positive Rate,简称 TPR),横轴是“假正例率”一(False PositiveRate,简称FPR)
TPR：真正例率，可以理解为所有正类中，有多少被预测成正类（正类预测正确），即召回率/查全率，=TP/(TP+FN)
FPR：假正例率，可以理解为所有反类中，有多少被预测成正类（正类预测错误），= FP / (FP + TN)
在这里插入图片描述
AUC： AUC即ROC曲线下方的面积。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化，用ROC作为衡量分类情况，更加稳定。

ks曲线/ks值

K-S曲线的数据来源和本质是与ROC曲线是一致的，只不过ROC曲线是将真正类率和假正类率作为横纵轴，K-s曲线则是把真正率和假正率都当作是纵轴，横轴为选定的阈值。
ks值含义

KS<0.2 模型的区分能力不高，价值不大；
0.2<=KS<0.4 一般金融机构开发的评分模型KS大部分都集中在这个区间内，模型具备一定的区分能力和使用价值，此时可以结合其他指标继续观察调优模型；
0.4<=KS<=0.7 模型区分能力比较好，模型有应用价值；
KS>0.7 模型好的难以令人置信，可能在变量中加入了业务目标衍生指标，需要对模型特征工程进行排查。

KS曲线是两条线，其横轴是阈值，纵轴是TPR（上面那条）与FPR（下面那条）的值，值范围[0，1] 。两条曲线之间之间相距最远的地方对应的阈值，就是最能划分模型的阈值.
在这里插入图片描述
计算KS值的步骤如下
1.对变量进行分箱（binning），可以选择等频、等距，或者自定义距离。
2.计算每个分箱区间的好账户数(goods)和坏账户数(bads)
3.计算每个分箱区间的累计好账户数占总好账户数比率(cum_good_rate)和累计坏账户数占总坏账户数比率(cum_bad_rate)。
4.计算每个分箱区间累计坏账户占比与累计好账户占比差的绝对值，得到KS曲线。也就是： ks=|cum_good_rate - cum_bad_rate|
5.在这些绝对值中取最大值，得到此变量最终的KS值。

GINI系数

GINI系数：也是用于模型风险区分能力进行评估。
GINI统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积，好账户与坏账户分布之间的差异越大，GINI指标越高，表明模型的风险区分能力越强。

GINI系数的计算步骤如下：

计算每个评分区间的好坏账户数。
计算每个评分区间的累计好账户数占总好账户数比率（累计good%）和累计坏账户数占总坏账户数比率(累计bad%)。
按照累计好账户占比和累计坏账户占比得出下图所示曲线ADC。
计算出图中阴影部分面积，阴影面积占直角三角形ABC面积的百分比，即为GINI系数。

psi稳定性

PSI的稳定性计算：实际分布（actual），另一个是预期分布（expected）。
在这里插入图片描述
计算步骤：

step1：将变量预期分布（excepted）进行分箱（binning）离散化，统计各个分箱里的样本占比。
注意：
a) 分箱可以是等频、等距或其他方式，分箱方式不同，将导致计算结果略微有差异；
b) 对于连续型变量（特征变量、模型分数等），分箱数需要设置合理，一般设为10或20；对于离散型变量，如果分箱太多可以提前考虑合并小分箱；分箱数太多，可能会导致每个分箱内的样本量太少而失去统计意义；分箱数太少，又会导致计算结果精度降低。
step2: 按相同分箱区间，对实际分布（actual）统计各分箱内的样本占比。
step3:计算各分箱内的A - E和Ln(A / E)，计算index = (实际占比 - 预期占比）* ln(实际占比 / 预期占比) 。
step4: 将各分箱的index进行求和，即得到最终的PSI。