混淆矩阵的精度计算公式为:精度=(TP+TN)/(TP+TN+FP+FN),也就是说,精度就是指正确的预测数目除以所有样本的数量。
准确率、召回率与f-分数:总结混淆矩阵还有几种方法,其中最常见的就是准确率和召回率。准确率度量的是被预测为正例的样本有多少是整整的样例。即:准确率=TP/(TP+FP)。如果目标是限制假正例的数量,那么可以使用准确率作为性能目标。
召回率:召回率(recalll)度量的是正类样本中有多少被预测为正类,即:召回率=TP/(TP+FN),如果我们需要找出所有的正类样本,即避免反例是很重要的情况下,那么可以使用召回率作为性能指标。
在优化召回率与优化准确率之间需要折中,如果你预测所有样本都属于正类,那么可以轻松得到完美的召回率(没有假反例、也没有真反例)。但是,将所有样本都预测为正类,将会得得很多假正例,因此准确率会很低。与之相反,如果你的模型只讲一个最确定的数据点预测为正类,其他点都预测为反类,那么准确率将会很完美(假设这个数据点上实际上就属于正类),但是召回率会很差。(当然,准确率和召回率只是度量混淆矩阵情况中两个量,其他的可以根据实际情况取对应的参数)。
f-分数:虽然准确率和召回率是非常重要的度量,三式仅查看二者之一无法提供完美的途径,所以还有一种将两种方法汇总的方法——f-分数。它是准确率与召回率的调和平均,即:F=2*(准确率*召回率)/(准确率+召回率)。
<