常见评价指标

简介

整理一些常见的评价指标。

信息检索

信息检索是指从一些相关(relevant)和不相关(irrelevant)的信息中检索出相关信息, 为便于论述, 记检索出的为正 (positive) 响应, 未检索出的为负 (negative) 响应. 下面论述的这些评价指标也通常被用在目标检测, 图像分割, 变化检测等应用领域. 主要包括以下指标

  • 真正 (True Positive, TP): 实际上是正样本, 被检索为正样本, 真相关, 也称正确检出数
  • 真负 (True Negative, TN): 实际上是负样本, 被检索为负样本, 真不相关
  • 假正 (False Positive, FP): 实际上是负样本, 被检索为正样本, 假相关, 也称为虚警
  • 假负 (False Negative, FN): 实际上是正样本, 被检索为负样本, 假不相关, 也称为漏检
  • 查准率 (Precision): 检索到的真相关样本占检索到的样本的比例
  • 查全率 (Recall): 检索到的真相关样本占总体相关样本的比例
  • 相关样本总体: 检索到的真相关样本(正确检出数, TP)与未检索到的相关样本(FN)之和
  • 不相关样本总体: 检索到的假相关样本(虚警, FP)与未检索到的不相关样本(TN)之和
  • 检索到的样本: 检索到的真相关样本(正确检出数, TP)与检索到的假相关样本(FN)之和

来自维基百科
来自维基百科

查准率

查准率 (Precision) 指检索到的真相关样本占检索到的样本的比例, 即在所有检索结果中, 真正相关样本所占比例, 亦即所有正响应中, 真正相关的样本所占比例, 在分类问题中也称正预测值 (Positive PredictIve Value, PPV), 可以表示为

P P V = P = T P T P + F P \mathrm{PPV}=P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} PPV=P=TP+FPTP

查全率

查全率 (Recall), 指检索到的真相关样本占总体相关样本的比例; 即在总体相关样本中, 检出的真正相关样本所占比例; 亦即所有正样本中, 响应为正的样本所占比例, 也称 召回率 在其它领域也称灵敏度(Sensitivity), 真正率(True Positive Rate, TPR)可以表示为

T P R = R = T P T P + F N \mathrm{TPR}=R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} TPR=R=TP+FNTP

F-measure

查准率(PP)与查全率(RR)只能从一个方面衡量模型性能, 当查准率与查全率均比较高时, 模型效果越好. F-measure 是一种融合了查准率与查全率的综合评价指标, 可以表示为

F β = ( 1 + β 2 ) ⋅ P ⋅ R β 2 ⋅ P + R F_{\beta}=\frac{\left(1+\beta^{2}\right) \cdot P \cdot R}{\beta^{2} \cdot P+R} Fβ=β2P+R(1+β2)PR

其中, β 用于调整查准率与查全率所占比重, 通常取 β = 0.5 , 1 , 2 \beta=0.5, 1, 2 β=0.5,1,2. 当 β = 0.5 \beta=0.5 β=0.5 时, 更强调查准率; 当 β = 2 \beta=2 β=2 时, 更强调查全率.

虚警率

虚警率 (False Alarm Rate) 也称错误发现率 (False Discovery Rate, FDR), 是指在检索出的样本中, 不相关的样本所占比例, 与查准率互补, 可以表示为

F D R = F P T P + F P = 1 − P \mathrm{FDR}=\frac{\mathrm{F} \mathrm{P}}{\mathrm{TP}+\mathrm{FP}}=1-P FDR=TP+FPFP=1P

漏检率

漏检率 (Miss Alarm Rate) 也称假负率 (False Negative Rate, FNR), 是指未检索出的正类样本占总正类样本的比例, 与召回率互补, 可以表示为

F N R = F N F N + T P = 1 − R \mathrm{FNR}=\frac{\mathrm{F} \mathrm{N}}{\mathrm{FN}+\mathrm{TP}}=1-R FNR=FN+TPFN=1R

分类

准确率

假设有 N N N个样本,包含 N c N_c Nc个类别,其中 N p N_p Np个样本分类正确, N n N_n Nn个样本分类错误,则 N = N p + N n N=N_p+N_n N=Np+Nn,准确率定义为

a c c u r a c y = N p N {\rm accuracy}=\frac{N_p}{N} accuracy=NNp

假设只有 N c = 2 N_c=2 Nc=2个类别(正类,负类),则

a c c u r a c y = T P + T N T P + T N + F P + F N {\rm accuracy}=\frac{TP+TN}{TP+TN+FP+FN} accuracy=TP+TN+FP+FNTP+TN

其中, T P TP TP表示原本是正类被分类为正类的样本数目, T N TN TN表示原本是负类被分类为负类的样本数目, F P FP FP表示原本为负类被分类为正类的样本数目, F N FN FN表示原本为正类被分类为负类的样本数目。

混淆矩阵

混淆矩阵(Confusion Matrix)是指一个矩阵,它记录了 i i i类被预测为第 j j j类的样本数目的信息。假设共有 N c N_c Nc个类别,其中 i , j = 1 , 2 , … , N c i,j={1, 2, \dots, N_c} i,j=1,2,,Nc, 则混淆矩阵是一个 R N c × N c {\mathbb R}^{N_c\times N_c} RNc×Nc的矩阵。

[ a 11 a 12 ⋯ a 1 N c a 21 a 22 ⋯ a 2 N c ⋮ ⋮ ⋮ ⋮ a N c 1 a N c 2 ⋯ a N c N c ] \left[ \begin{array}{llll} a_{11} & a_{12} & \cdots & a_{1N_c} \\ a_{21} & a_{22} & \cdots & a_{2N_c} \\ \vdots & \vdots & \vdots & \vdots \\ a_{N_c1} & a_{N_c2} & \cdots & a_{N_cN_c} \\ \end{array}\right] a11a21aNc1a12a22aNc2a1Nca2NcaNcNc

举个例子,假设共有 N = 10 N=10 N=10个样本,其中共有 N c = 3 N_c=3 Nc=3个类别,类别标签依次如下

  • 真实类别标签依次为 { 1 , 2 , 3 , 1 , 2 , 3 , 1 , 2 , 3 , 1 } \{1, 2, 3, 1, 2, 3, 1, 2, 3, 1\} {1,2,3,1,2,3,1,2,3,1}
  • 预测类别标签依次为 { 1 , 3 , 3 , 1 , 2 , 3 , 3 , 2 , 3 , 1 } \{1, 3, 3, 1, 2, 3, 3, 2, 3, 1\} {1,3,3,1,2,3,3,2,3,1}

可见,真实样本中,共有4个1类样本、3个2类样本和3个3类样本。从预测结果来看,有1个2类样本被分为3类样本,有1个1类样本被分为3类样本. 我们统计一下每个类别被预测为另一类别的情况,如下表所示, 可以看出如下结论:

  • 每一行的和对应实际标签中该类的样本数
  • 每一列的和对应预测标签中该类的样本数
  • 对角线元素表示预测正确的样本数目
  • 非对角元素表示预测错误的样本数目

在这里插入图片描述

Kappa系数

Kappa系数是一个用于一致性检验的指标,也可以用于衡量分类的一致性。

Cohen’s kappa coefficient (κ) is a statistic that is used to measure inter-rater reliability (and also intra-rater reliability) for qualitative (categorical) items.[1] It is generally thought to be a more robust measure than simple percent agreement calculation, as κ takes into account the possibility of the agreement occurring by chance. There is controversy surrounding Cohen’s kappa due to the difficulty in interpreting indices of agreement. Some researchers have suggested that it is conceptually simpler to evaluate disagreement between items. 来自 https://en.wikipedia.org/wiki/Cohen%27s_kappa

Kappa系数的计算公式如下

κ = p o − p e 1 − p e = 1 − 1 − p o 1 − p e {\kappa }=\frac{p_o - p_e}{1 - p_e}=1-\frac{1-p_o}{1-p_e} κ=1pepope=11pe1po

其中, p o , p e p_o, p_e po,pe可由混淆矩阵计算

p o = ∑ i = 1 N c a i i N p_o = \frac{\sum_{i=1}^{N_c}a_{ii}}{N} po=Ni=1Ncaii

p e = ∑ i = 1 N c ( ( ∑ k = 1 N c a i k ) ( ∑ k = 1 N c a k i ) ) N 2 p_e = \frac{\sum_{i=1}^{N_c}\big((\sum_{k=1}^{N_c}a_{ik})( \sum_{k=1}^{N_c}a_{ki})\big)}{N^2} pe=N2i=1Nc((k=1Ncaik)(k=1Ncaki))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值