深度学习模型评估性能指标（一文读懂）

努力的渣渣_lj

已于 2023-02-18 10:31:34 修改

阅读量1.9k

点赞数 1

文章标签：深度学习机器学习人工智能

于 2022-10-17 16:29:52 首次发布

本文链接：https://blog.csdn.net/liangjian990709/article/details/127323674

版权

本文详细解析了深度学习中常用的评价指标，如准确率、查准率（精确率）、查全率（召回率）和F1分数。特别强调了在样本不平衡情况下的表现，并介绍了PR曲线、AP（平均精度）的概念及其计算方法。最后涵盖了如何调整F-Score以平衡召回率和查准率，以及如何应对不同场景的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习

评价指标

T/F：预测是正确的还是错误的
P/N：预测结果是正例还是负例
TP:正确正例，预测为正，真实为正
FN:错误负例，预测错误，预测为负，真实为正
FP:错误正例，预测错误，预测为正，真实是负
TN:正确负例，预测正确，预测是负，真实为负

准确率

样本不均衡的情况下会失效，例如一个病患病率0.4%，则告诉所有患者都没患病，则检查的准确率为96.6%
$=\frac{TP+TN}{TP+TN+FP+FN}$

查准率（精确率）

宁可漏检，不可错，极端情况100个样本随意分布正负，确定其中一个一定为正的预测为正其他都预测为负，则查准率100%，适用于要求预测（为正的）一定别错的场景
$=\frac{TP}{TP+FP}$

查全率（召回率）

宁可错杀一千，不可放过一个，极端情况，所有都预测为正，召回率100%，适用于尽力的预测出所有的（正样本）结果
$=\frac{TP}{TP+FN}$

F-Score

权衡召回率和查准率，Beta为1，二者一样重要，小于1查准率重要，大于1召回率重要
$F_{Score} =(1+\beta^2)\frac{Precision\cdot{Recall}}{\beta^2\cdot{Precision}+{Recall}}$

PR曲线

查全率为横坐标，查准率为纵坐标的曲线
将预测结果按预测分数从大到小排序，随着统计结果数量的上升，召回率一定会逐渐变大，观察查准率的变化，得到PR曲线

图片来源

绘制PR曲线

将预测结果按照分数，从大到小排序

序号	预测结果	真实结果
1	1	1
2	0	0
3	1	1
4	0	1
5	1	0
6	1	0
7	0	1
8	1	1
9	1	1

随着统计数量的上升，计算查准率，查全率

统计数量	查准率	查全率
1	1/1	1/6
2	1/1	1/6
3	2/2	2/6
4	2/2	2/6
5	2/3	2/6
6	2/4	2/6
7	2/4	2/6
8	3/5	3/6
9	4/6	4/6

绘制曲线

求AP

2007年提出的AP计算方法（TREC style sampling），通过特殊的插值找到Recall为[0,0.1,0.2…1]处对应的Precision值，共11个，求平均
2010年后AP计算定义为经过插值的precision-recall曲线与X轴包络的面积。这种方式称为：AUC (Area under curve）

$P=\sum_{i=1}^{n-1}\left(r_{i+1}-r_i\right) p_{i n t e r p}\left(r_{i+1}\right)$
r1，r2,…,rn是按升序排列的Precision插值段第一个插值处对应的recall值。公式引用自

定义最大查准率（上述插值的recall值）为
$Precision^*(i)=Precision(t), (t>i)$
$i$ 表示横坐标查全率

求最大查准率

统计数量	查准率	查全率	最大查准率
1	1/1	1/6	1
2	1/1	1/6	1
3	2/2	2/6	1
4	2/2	2/6	2/3
5	2/3	2/6	2/3
6	2/4	2/6	2/3
7	2/4	2/6	2/3
8	3/5	3/6	2/3
9	4/6	4/6	2/3

绘制新曲线，横坐标为查全率，纵坐标为最大查准率
计算AP值

2007年方法
$AP=\frac{1}{11}\cdot(1+1+1+1+\frac{2}{3}+\frac{2}{3}+\frac{2}{3}+0+0+0+0)=\frac{6}{11}=54.5\%$
2010年方法
$AP=\frac{1}{3}\cdot1+\frac{1}{3}\cdot\frac{2}{3}=\frac{5}{9}=55.6\%$