常见评价指标

最新推荐文章于 2022-09-15 11:31:53 发布

如若明镜

最新推荐文章于 2022-09-15 11:31:53 发布

阅读量2.4k

点赞数

分类专栏：机器学习深度学习文章标签：深度学习机器学习评价指标分类检索

本文链接：https://blog.csdn.net/enjoyyl/article/details/124559855

版权

机器学习同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

深度学习

7 篇文章 3 订阅

订阅专栏

文章目录

简介
信息检索
分类

简介

整理一些常见的评价指标。

信息检索

信息检索是指从一些相关(relevant)和不相关(irrelevant)的信息中检索出相关信息, 为便于论述, 记检索出的为正 (positive) 响应, 未检索出的为负 (negative) 响应. 下面论述的这些评价指标也通常被用在目标检测, 图像分割, 变化检测等应用领域. 主要包括以下指标

真正 (True Positive, TP): 实际上是正样本, 被检索为正样本, 真相关, 也称正确检出数
真负 (True Negative, TN): 实际上是负样本, 被检索为负样本, 真不相关
假正 (False Positive, FP): 实际上是负样本, 被检索为正样本, 假相关, 也称为虚警
假负 (False Negative, FN): 实际上是正样本, 被检索为负样本, 假不相关, 也称为漏检
查准率 (Precision): 检索到的真相关样本占检索到的样本的比例
查全率 (Recall): 检索到的真相关样本占总体相关样本的比例
相关样本总体: 检索到的真相关样本(正确检出数, TP)与未检索到的相关样本(FN)之和
不相关样本总体: 检索到的假相关样本(虚警, FP)与未检索到的不相关样本(TN)之和
检索到的样本: 检索到的真相关样本(正确检出数, TP)与检索到的假相关样本(FN)之和

来自维基百科

查准率

查准率 (Precision) 指检索到的真相关样本占检索到的样本的比例, 即在所有检索结果中, 真正相关样本所占比例, 亦即所有正响应中, 真正相关的样本所占比例, 在分类问题中也称正预测值 (Positive PredictIve Value, PPV), 可以表示为

$\mathrm{PPV}=P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$

查全率

查全率 (Recall), 指检索到的真相关样本占总体相关样本的比例; 即在总体相关样本中, 检出的真正相关样本所占比例; 亦即所有正样本中, 响应为正的样本所占比例, 也称召回率在其它领域也称灵敏度(Sensitivity), 真正率(True Positive Rate, TPR)可以表示为

$\mathrm{TPR}=R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}$

F-measure

查准率(PP)与查全率(RR)只能从一个方面衡量模型性能, 当查准率与查全率均比较高时, 模型效果越好. F-measure 是一种融合了查准率与查全率的综合评价指标, 可以表示为

$F_{\beta}=\frac{\left(1+\beta^{2}\right) \cdot P \cdot R}{\beta^{2} \cdot P+R}$

其中, β 用于调整查准率与查全率所占比重, 通常取 $\beta=0.5, 1, 2$ . 当 $\beta=0.5$ 时, 更强调查准率; 当 $\beta=2$ 时, 更强调查全率.

虚警率

虚警率 (False Alarm Rate) 也称错误发现率 (False Discovery Rate, FDR), 是指在检索出的样本中, 不相关的样本所占比例, 与查准率互补, 可以表示为

$\mathrm{FDR}=\frac{\mathrm{F} \mathrm{P}}{\mathrm{TP}+\mathrm{FP}}=1-P$

漏检率

漏检率 (Miss Alarm Rate) 也称假负率 (False Negative Rate, FNR), 是指未检索出的正类样本占总正类样本的比例, 与召回率互补, 可以表示为

$\mathrm{FNR}=\frac{\mathrm{F} \mathrm{N}}{\mathrm{FN}+\mathrm{TP}}=1-R$

分类

准确率

假设有 $N$ 个样本，包含 $N_c$ 个类别，其中 $N_p$ 个样本分类正确， $N_n$ 个样本分类错误，则 $N=N_p+N_n$ ，准确率定义为

${\rm accuracy}=\frac{N_p}{N}$

假设只有 $N_c=2$ 个类别（正类，负类），则

${\rm accuracy}=\frac{TP+TN}{TP+TN+FP+FN}$

其中， $T P$ 表示原本是正类被分类为正类的样本数目， $T N$ 表示原本是负类被分类为负类的样本数目， $F P$ 表示原本为负类被分类为正类的样本数目， $F N$ 表示原本为正类被分类为负类的样本数目。

混淆矩阵

混淆矩阵（Confusion Matrix）是指一个矩阵，它记录了第 $i$ 类被预测为第 $j$ 类的样本数目的信息。假设共有 $N_c$ 个类别，其中 $\dots, N_c}$ , 则混淆矩阵是一个 ${\mathbb R}^{N_c\times N_c}$ 的矩阵。

$\left[ \begin{array}{llll} a_{11} & a_{12} & \cdots & a_{1N_c} \\ a_{21} & a_{22} & \cdots & a_{2N_c} \\ \vdots & \vdots & \vdots & \vdots \\ a_{N_c1} & a_{N_c2} & \cdots & a_{N_cN_c} \\ \end{array}\right]$

举个例子，假设共有 $N = 10$ 个样本，其中共有 $N_c=3$ 个类别，类别标签依次如下

真实类别标签依次为 ${1, 2, 3, 1, 2, 3, 1, 2, 3, 1\}$
预测类别标签依次为 ${1, 3, 3, 1, 2, 3, 3, 2, 3, 1\}$ ，

可见，真实样本中，共有4个1类样本、3个2类样本和3个3类样本。从预测结果来看，有1个2类样本被分为3类样本，有1个1类样本被分为3类样本. 我们统计一下每个类别被预测为另一类别的情况，如下表所示, 可以看出如下结论：

每一行的和对应实际标签中该类的样本数
每一列的和对应预测标签中该类的样本数
对角线元素表示预测正确的样本数目
非对角元素表示预测错误的样本数目

在这里插入图片描述

Kappa系数

Kappa系数是一个用于一致性检验的指标，也可以用于衡量分类的一致性。

Cohen’s kappa coefficient (κ) is a statistic that is used to measure inter-rater reliability (and also intra-rater reliability) for qualitative (categorical) items.[1] It is generally thought to be a more robust measure than simple percent agreement calculation, as κ takes into account the possibility of the agreement occurring by chance. There is controversy surrounding Cohen’s kappa due to the difficulty in interpreting indices of agreement. Some researchers have suggested that it is conceptually simpler to evaluate disagreement between items. 来自 https://en.wikipedia.org/wiki/Cohen%27s_kappa

Kappa系数的计算公式如下

${\kappa }=\frac{p_o - p_e}{1 - p_e}=1-\frac{1-p_o}{1-p_e}$