multi-label learning/classification评价指标

最新推荐文章于 2024-05-14 16:56:08 发布

HackerTom

最新推荐文章于 2024-05-14 16:56:08 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习文章标签： multi-label

本文链接：https://blog.csdn.net/HackerTom/article/details/102238410

版权

机器学习专栏收录该内容

120 篇文章 16 订阅

订阅专栏

可以分成两类：

example-based metrics：对每个 sample 分别测试性能，然后取平均
label-based metrics：对每个 class label 测试性能，然后取 macro/micro 平均

这里只列举几个，其余见 [1]。

Notations

$h(\cdot)$ ：一个 multi-label 分类器（hypothesis）
$f (x, y)$ ：返回样本 x 属于类比 y 的预测概率（confidence）
$rank_f(x,y)$ ：类别 y 是第几位最有可能是 x 所属类别（根据 $f (x, y)$ 降序定的排位）
$m$ ：test set 大小
$c$ ：class 个数，即 label 空间大小
$Y$ ：样本 $x$ 对应的 label 集，可以理解成它的 label 向量
$[\cdot]$ ：真 1 假 0

Example-based

Subset Accuracy

$subsetacc(h)=\frac{1}{m}\sum^m_{i=1}\left[h(x_i)=Y_i\right]$
直接从 single label 的 accuracy 推广得到，要所有 labels 都预测对才算对，粒度略粗？。
度量分类完全正确的 sample 比例，值越大越好。

调包：sklearn.metrics.accuracy_score(y_true, y_pred)，可以是 multi-hot 式的 indicator 向量表示，也可以是整数序列（对于 single label，一个整数表示一个 sample 的 class id）。

Hamming Loss

$hloss(h)=\frac{1}{m} \sum_{i=1}^{m} \frac{1}{c}\left|h\left(x_{i}\right) \Delta Y_{i}\right|$
此处 $\Delta$ 表示一种对称的差异度量，例如作差。粒度细了一点。值越小越好。

调包：sklearn.metrics.hamming_loss(y_true, y_pred)。

One Error

$one-error(f)=\frac{1}{m} \sum_{i=1}^{m}\left(\left(\arg \max _{y \in \mathcal{Y}} f\left(x_{i}, y\right)\right) \notin Y_{i}\right)$
统计那些排名最高（预测概率最大）的 label 却不在 ground-truth label 集里的 sample 比例。

Precision, Recall, F

$P(h)=\frac{1}{m} \sum_{i=1}^{m} \frac{\left|Y_{i} \cap h\left(x_{i}\right)\right|}{\left|h\left(x_{i}\right)\right|}$
度量预测的 label 中有几个是对的，查准率。
$R(h)=\frac{1}{m} \sum_{i=1}^{m} \frac{\left|Y_{i} \cap h\left(\boldsymbol{x}_{i}\right)\right|}{\left|Y_{i}\right|}$
预测对的 label 占总 ground-truth label 的几成，查全率。
$F^{\beta}(h)=\frac{(1+\beta^2)\cdot P(h)\cdot R(h)}{\beta^2\cdot P(h)+R(h)}$
precision 和 recall 的综合，常用 $\beta=1$ ，即 F1。

Coverage

$coverage(f)=\frac{1}{m} \sum_{i=1}^{m} \max _{y \in Y_{i}} \operatorname{rank}_{f}\left(x_{i}, y\right)-1$
按照 rank，想覆盖所有 relevant labels 至少需要多少长度。原文说从第一位开始至少要多少 steps，所要有 -1，差不多意思。

调包：sklearn.metrics.coverage_error(y_true, y_score)，其中 y_score 是对每个 label 预测的 confidence，一般就是分类函数的输出。

Ranking Loss

$\frac{1}{m} \sum_{i=1}^m \frac{1}{\left|Y_{i}\right|\left|\bar{Y}_{i}\right|} \left| \left\{\left(y^{\prime}, y^{\prime \prime}\right) | f\left(x_{i}, y^{\prime}\right)\right.\right. \left.\left.\leq f\left(x_{i}, y^{\prime \prime}\right),\left(y^{\prime}, y^{\prime \prime}\right) \in Y_{i} \times \bar{Y}_{i}\right)\right\}|$
统计逆序对：错的 $y^{\prime\prime}$ 的 rank 排在对的 $y^{\prime}$ 前面。

调包：sklearn.metrics.label_ranking_loss(y_true, y_score)。

Average Precision

$avgprec(f)=\frac{1}{m}\sum^m_{i=1}\frac{1}{|Y_i|}\sum_{y\in Y_i}\frac{|\{y^{\prime}|rank_f(x_i,y^{\prime})\leq rank_f(x_i,y),y^{\prime}\in Y_i\}|}{rank_f(x_i,y)}$
mAP 里的 AP 部分（检索的 mAP 和这个基于排序的分类 mAP 思路一致，只是前者基于距离排，后者基于 confidence 排）。

调包：sklearn.metrics.label_ranking_average_precision_score(y_true, y_score)。

（sklearn 里有另一个 AP 算法：sklearn.metrics.average_precision_score，计算方法有点不同：各位置 precision 的权重不同。上面那个相当于各个位置的 precision 同权重平均，而这个的权重是对应位置的 recall 值）

Label-based

TP, FP, TN, FN

对于第 j 个 label：
$P_{j}=\left|\left\{x_{i} | y_{j} \in Y_{i} \wedge y_{j} \in h\left(x_{i}\right), 1 \leq i \leq m\right\}\right|$
true positive，真 label 且被预测为真的数量。
$P_{j}=\left|\left\{x_{i} | y_{j} \notin Y_{i} \wedge y_{j} \in h\left(x_{i}\right), 1 \leq i \leq m\right\}\right|$
false positive，假 label 被预测为真。
$N_{j}=\left|\left\{x_{i} | y_{j} \notin Y_{i} \wedge y_{j} \notin h\left(x_{i}\right), 1 \leq i \leq m\right\}\right|$
true negative，假 label 被预测为假。
$N_{j}=\left|\left\{x_{i} | y_{j} \in Y_{i} \wedge y_{j} \notin h\left(x_{i}\right), 1 \leq i \leq m\right\}\right|$
false negative，真 label 被预测为假。

macro/micro averaging

对某种 metric B（acc、precision、recall、F）：
$B_{macro}(h)=\frac{1}{c} \sum_{j=1}^{c} B\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)$
$B_{micro}(h)=B\left(\sum_{j=1}^{c} TP_{j}, \sum_{j=1}^{c} FP_{j}, \sum_{j=1}^{c} TN_{j}, \sum_{j=1}^{c} FN_{j}\right)$

Accuracy

$\text { Accuracy }\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)=\frac{T P_{j}+T N_{j}}{T P_{j}+F P_{j}+T N_{j}+F N_{j}}$

Precision

$\text {Precision}\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)=\frac{T P_{j}}{T P_{j}+F P_{j}}$

Recall

$\operatorname{Recall}\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)=\frac{T P_{j}}{T P_{j}+F N_{j}}$

F

label-based 的 F：
$F^{\beta}\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)=\frac{\left(1+\beta^{2}\right) \cdot T P_{j}}{\left(1+\beta^{2}\right) \cdot T P_{j}+\beta^{2} \cdot F N_{j}+F P_{j}}$

调包：sklearn.metrics.fbeta_score(y_true, y_pred, beta, average=’binary’)，或者 F1 就直接sklearn.metrics.f1_score(y_true, y_pred, average=’binary’)，其中 average 参数可选 'micro'、'macro'

References

HackerTom

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
multi-label learning/classification评价指标

可以分成两类：example-based metrics：对每个 sample 分别测试性能，然后取平均label-based metrics：对每个 class label 测试性能，然后取 macro/micro 平均Notationsh(⋅)h(\cdot)h(⋅)：一个 multi-label 分类器（hypothesis）f(x,y)f(x,y)f(x,y)：返回样本 x ...
复制链接

扫一扫

专栏目录