目录
一、评估指标及其局限性
1. 准确率
准确率是分类问题中最简单也是最直观的评价指标, 但存在明显的缺陷。 比如, 当负样本占99%时, 分类器把所有样本都预测为负样本也可以获得99%的准确率。 所以, 当不同类别的样本比例非常不均衡时, 占比大的类别往往成为影响准确率的最主要因素。为了解决这个问题, 可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均) 作为模型评估的指标
2. 精准率和召回率
P-R曲线的横轴是召回率, 纵轴是精确率。 对于一个排序模型来说, 其P-R曲线上的一个点代表着, 在某一阈值下, 模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本, 此时返回结果对应的召回率和精确率。即当阈值提高时,判定为正样本的标准更加严格,Precision值计算更加严格,分类器需要分类器需要尽量在“更有把握”时才把样本预测为正样本,FP减少,Precision值提高, 但此时往往会因为过于保守而漏掉很多“没有把握”的正样本, 导致Recall值降低。
为更全面的评估模型,引入F1-SCORE,是精准率和召回率的调和平均值
3. 平方根误差
RMSE经常被用来衡量回归模型的好坏.一般情况下, RMSE能够很好地反映回归模型预测值与真实值的偏离程度。 但在实际问题中, 如果存在个别偏离程度非常大的离群点(Outlier) 时, 即使离群点数量非常少, 也会让RMSE指标变得很差。
针对这个问题, 有什么解决方案呢? 可以从三个角度来思考。 第一, 如果我们认定这些离群点是“噪声点”的话, 就需要在数据预处理的阶段把这些噪声点过滤掉。 第二, 如果不认为这些离群点是“噪声点”的话, 就需要进一步提高模型的预测能力, 将离群点产生的机制建模进去(这是一个宏大的话题, 这里就不展开讨论了) 。 第三, 可以找一个更合适的指标来评估该模型。 关于评估指标, 其实是存在比RMSE的鲁棒性更好的指标, 比如平均绝对百分比误差(Mean AbsolutePercent Error, MAPE) :
相比RMSE, MAPE相当于把每个点的误差进行了归一化, 降低了个别离群点带来的绝对误差的影响
二、ROC曲线与AUC
1. ROC计算
ROC曲线横坐标为假阳性率/假正率(False Positive Rate, FPR),预测为正但实际为负的样本占所有负例样本的比例;
纵坐标为真阳性率/ 真正率(True Positive Rate, TPR</