实际的工作中,度量方式的选择不当可能会造成巨大的损失。如医疗领域、人机协作中的风险预测等。为了尽量减小决策风险,有必要选择正确的度量方式。
而一些我们中文意义上看着比较像的不易区别,这里记录一下。
-
明确几个表示
T P TP TP 真正例 , 识别为正,实际为正
F P FP FP 假正例 , 识别为正,实际为负
T N TN TN 真负例 , 识别为负,实际为负
F N FN FN 假负例 , 识别为负,实际为正
-
准确率
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN正确的结果所占的比例
-
精确率 P r e c i s i o n Precision Precision
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP+FP} Precision=TP+FPTP
识别为正的样本中,真正为正例的比例
-
召回率 R e c a l l Recall Recall
R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP
所有真正的正例样本中,被正确识别出来的比例
-
R O C ROC ROC
真正例率(同召回率)
T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP假正例率
F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFPR O C ROC ROC曲线的横坐标是 T P TP TP, 纵坐标是 F P FP FP 。
ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别,从而增加假正例和真正例的个数。
这里关键的是要搞清楚分母。
总之,真正例率相对于实际的正例个数,假正例相对于实际的负例个数。
参考
google 机器学习文档
不小心发现了表情 😃 😦