分类模型评价
分类模型的模型评价含义的理解
像对数几率回归模型这种用于分类问题的模型,它们对测试集数据进行预测而得到的准确率并不能很好地反映模型的性能,为了有效的判断一个预测模型的性能表现,需要结合真实值,计算出精确率,召回率和准确率等指标来衡量。
一,要了解查准率和查全率的含义,首先来看一下分类结果的“混淆矩阵”----对于一个二分类问题,根据样例的真实类别和机器学习预测的类别分为TP(真正例),FP(假正例),TN(真反例),FN(假反例)
看个例子理解:
假设我们有100个瓜,真实情况为这100个瓜中有60个好瓜,40个坏瓜。(图中有蓝色虚线的为真实情况)
预测出来的是100个瓜中有70个好瓜,30个坏瓜。(图中竖着的黑色框)
预测结果中把a2位置原本的10个好瓜预测为了坏瓜,将a3位置原本20个坏瓜预测为了好瓜。
那么在这个例子中,和上面的图二相对应着看。我们就可以做出很好的理解:
TP:真正例。实际是正分类,预测出来的也是正分类
FP:假正例。实际是负分类,预测出来的是正分类
TN:真反例。实际是负分类,预测出来是也负分类
FN:假反例。实际是正分类,预测出来是负分类
TP+FN是真实情况的正例;TP+FP是预测结果的正例;FP+TN是真实情况的反例;FN+TN是预测结果的反例。
根据上面所说,查准率和查全率(也叫精准率和召回率)就定义为:
查准率: P = T P T P + F P P=\dfrac{TP}{TP+FP} P=TP+FPTP,模型预测正例的正确率
查全率: P =