多标签评价指标

lyang~

已于 2023-01-15 18:07:35 修改

阅读量484

点赞数 2

文章标签：算法 python

于 2023-01-09 22:45:15 首次发布

本文链接：https://blog.csdn.net/qq_69515036/article/details/128614825

版权

1. 符号系统

记号	含义
$\mathcal{X}$	$d$ 维实例空间 $\mathbb{R}^d$ (或 $\mathbb{Z}^d$ )
$\mathcal{Y}$	标签空间，有 $L$ 种标签 $\{y_1,y_2,\cdots,y_L\}$
$\boldsymbol{x}_i$	$d$ 维特征向量 $(x_1,x_2,\cdots,x_d)^\top(\boldsymbol{x}\in\mathcal{X})$
$Y$	$\boldsymbol{x}$ 上存在的标签集合 $(Y\in\mathcal{Y})$
$\bar{Y}$	$Y$ 在 $\mathcal{Y}$ 中的补集
$\mathcal{S}$	测试集 $\left\{(\boldsymbol{x}_i, Y_i) \| 1 \leq i \leq N\right\}$
$h(\cdot)$	$h(\boldsymbol{x})$ 返回对 $\boldsymbol{x}$ 的预测中在 $\boldsymbol{x}$ 上存在的标签集合
$f(\cdot,\cdot)$	实值函数 $f:\mathcal{X}\times\mathcal{Y}\rightarrow\mathbb{R}$ ， $f(\boldsymbol{x},y)$ 返回 $\boldsymbol{x}$ 上标签 $y$ 存在的概率
$rank_f(\cdot,\cdot)$	$rank_f(\boldsymbol{x},y)$ 返回根据 $f(\boldsymbol{x},\cdot)$ 的概率降序排列后， $y$ 的排名
$\|\cdot\|$	返回集合的基数
$\llbracket\cdot\rrbracket$	如果谓词 $\pi$ 成立， $\llbracket\pi\rrbracket$ 返回 $1$ ，否则返回 $0$

2. example-based 与 label-based

example-based：先分别评估 $h(\cdot)$ 对每个测试示例的性能，最后返回在整个测试集上的平均值
label-based：先分别评估 $h(\cdot)$ 在每个标签上的性能，最后返回在所有标签上的 macro/micro-averaged value

![在这里插入图片描述](https://img-blog.csdnimg.cn/5910241e457e43aabcac81096356e3a4.png

3. example-based

3.1 Subset Accuracy

$\operatorname{subsetacc}(h)=\frac{1}{N} \sum_{i=1}^N\llbracket h\left(\boldsymbol{x}_i\right)=Y_i\rrbracket$

$\llbracket h\left(\boldsymbol{x}_i\right)=Y_i\rrbracket$ ：实例 $\boldsymbol{x}_i$ 上真实存在的标签集合与预测出的 $\boldsymbol{x}_i$ 上存在的标签集合完全一致，则返回 $1$ ，否则 $0$
这实际上是对传统精度的自然推广，当标签向量尺寸非常大时，这个指标是非常严苛的

3.2 Hamming Loss

$\operatorname{hloss}(h)=\frac{1}{N} \sum_{i=1}^N\frac{\left|h\left(\boldsymbol{x}_i\right)\Delta Y_i\right|}{L}$

$\Delta$ ：集合的对称差， $A\Delta B=\left(A\cup B\right)-\left(A\cap B\right)$
$|\cdot|$ ：返回集合的基数
越小越好

示例: 假设有两个样本

对样本一的预测值为 $y_{pred} = [0, 1, 1, 0, 0]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$
- 预测出的 $\boldsymbol{x}_1$ 上存在第 $2$ 个和第 $3$ 个标签， $h(\boldsymbol{x}_1)$ 返回标签集合 $\left\{l_2, l_3\right\}$
- 真实标签集合 $Y_1$ 为 $\left\{l_1, l_3\right\}$
- 对称差 $h(\boldsymbol{x}_1)\Delta Y_1$ 为 $\left\{l_1,l_2\right\}$ ，其基数为 $2$ ，总标签数 $L = 5$
- 故这里得到 $2/5$
- 换句话说，预测值与真实标签有 $2$ 个值不同，标签向量共有 $5$ 个值，故得到 $2/5$
对样本二的预测值为 $y_{pred} = [1, 1, 0, 0, 0]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$
- 预测出的 $\boldsymbol{x}_2$ 上存在第 $1$ 个和第 $2$ 个标签， $h(\boldsymbol{x}_2)$ 返回标签集合 $\left\{l_1, l_2\right\}$
- 真实标签集合 $Y_2$ 为 $\left\{l_1, l_3, l_5\right\}$
- 对称差 $h(\boldsymbol{x}_2)\Delta Y_2$ 为 $\left\{l_2,l_3,l_5\right\}$ ，其基数为 $3$ ，总标签数 $L = 5$
- 故这里得到 $3/5$
- 换句话说，预测值与真实标签有 $3$ 个值不同，标签向量共有 $5$ 个值，故得到 $3/5$
返回 $\operatorname{Hamming\ Loss}$ 的值为 $\frac{1}{2}\times(\frac{2}{5}+\frac{3}{5})=\frac{1}{2}$

3.3 Accuracy, Precision, Recall, F

3.3.1 Accuracy

$Accuracy_{exam}(h)=\frac{1}{N}\sum\limits_{i=1}^N\frac{\left|Y_i\cap h(\boldsymbol{x}_i)\right|}{L}$

越大越好

示例: 假设有两个样本

对样本一的预测值为 $y_{pred} = [0, 1, 1, 0, 0]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，则在 $\boldsymbol{x}_1$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_1\right)$ 为 $\left\{l_2,l_3\right\}$ ，真实标签集合为 $\left\{l_1,l_3\right\}$
- $Y_1$ 和 $h\left(\boldsymbol{x}_1\right)$ 的交集为 $\left\{l_3\right\}$ ，其基数为 $1$
- 标签总个数 $L = 5$
- 故此处得 $1/5$
对样本二的预测值为 $y_{pred} = [1, 1, 0, 0, 0]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，则在 $\boldsymbol{x}_2$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_2\right)$ 为 $\left\{l_1,l_2\right\}$ ，真实标签集合为 $\left\{l_1,l_3,l_5\right\}$
- $Y_2$ 和 $h\left(\boldsymbol{x}_2\right)$ 的交集为 $\left\{l_1\right\}$ ，其基数为 $1$
- 标签总个数 $L = 5$
- 故此处得 $1/5$
返回 $\operatorname{Accuracy}$ 的值为 $\frac{1}{2}\times(\frac{1}{5}+\frac{1}{5})=\frac{1}{5}$

3.3.2 Precision

查准率，是被预测为正例的样本中，真正的正例所占的比例
$Precision_{exam}(h)=\frac{1}{N}\sum\limits_{i=1}^N\frac{\left|Y_i\cap h(\boldsymbol{x}_i)\right|}{\left|h(\boldsymbol{x}_i)\right|}$

越大越好

示例: 假设有两个样本

对样本一的预测值为 $y_{pred} = [0, 1, 1, 0, 0]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，则在 $\boldsymbol{x}_1$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_1\right)$ 为 $\left\{l_2,l_3\right\}$ ，真实标签集合为 $\left\{l_1,l_3\right\}$
- $Y_1$ 和 $h\left(\boldsymbol{x}_1\right)$ 的交集为 $\left\{l_3\right\}$ ，其基数为 $1$
- $h\left(\boldsymbol{x}_1\right)$ 的基数为 $2$
- 故此处得 $1/2$
- 即，被预测为正的标签中，有一半为真正存在的标签
对样本二的预测值为 $y_{pred} = [1, 1, 0, 0, 0]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，则在 $\boldsymbol{x}_2$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_2\right)$ 为 $\left\{l_1,l_2\right\}$ ，真实标签集合为 $\left\{l_1,l_3,l_5\right\}$
- $Y_2$ 和 $h\left(\boldsymbol{x}_2\right)$ 的交集为 $\left\{l_1\right\}$ ，其基数为 $1$
- $h\left(\boldsymbol{x}_2\right)$ 的基数为 $2$
- 故此处得 $1/2$
返回 $\operatorname{Precision}$ 的值为 $\frac{1}{2}\times(\frac{1}{2}+\frac{1}{2})=\frac{1}{2}$

3.3.3 Recall

查全率，是真正例中被预测为正例的样本所占的比例
$Recall_{exam}(h)=\frac{1}{N}\sum\limits_{i=1}^N\frac{\left|Y_i\cap h(\boldsymbol{x}_i)\right|}{\left|Y_i\right|}$

越大越好

示例: 假设有两个样本

对样本一的预测值为 $y_{pred} = [0, 1, 1, 0, 0]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，则在 $\boldsymbol{x}_1$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_1\right)$ 为 $\left\{l_2,l_3\right\}$ ，真实标签集合为 $\left\{l_1,l_3\right\}$
- $Y_1$ 和 $h\left(\boldsymbol{x}_1\right)$ 的交集为 $\left\{l_3\right\}$ ，其基数为 $1$
- $Y_1$ 的基数为 $2$
- 故此处得 $1/2$
- 即， $\boldsymbol{x}_i$ 上真正的存在的标签中，有一半被查 (预测) 出来了
对样本二的预测值为 $y_{pred} = [1, 1, 0, 0, 0]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，则在 $\boldsymbol{x}_2$ 上有预测出的标签集合 $h\left(\boldsymbol{x}_2\right)$ 为 $\left\{l_1,l_2\right\}$ ，真实标签集合为 $\left\{l_1,l_3,l_5\right\}$
- $Y_2$ 和 $h\left(\boldsymbol{x}_2\right)$ 的交集为 $\left\{l_1\right\}$ ，其基数为 $1$
- $Y_2$ 的基数为 $3$
- 故此处得 $1/3$
返回 $\operatorname{Recall}$ 的值为 $\frac{1}{2}\times(\frac{1}{2}+\frac{1}{3})=\frac{5}{12}$

3.3.4 F

F 值是对查准率和查全率的综合考量，不同场景下查准和查全的重要程度不同，参数 $\beta$ 用来调整查准和查全的权值，当 $\beta$ 为 $1$ 时，退化为标准的 $F_1$ 值
$F_{exam}^\beta(h)=\frac{(1+\beta^2)\cdot Precision_{exam}(h)\cdot Recall_{exam}(h)}{\beta^2\cdot Precision_{exam}(h)+Recall_{exam}(h)}$

$\beta > 0$ 度量了查全率对查准率的相对重要性
$\beta > 1$ 时查全率有更大影响； $\beta < 1$ 时查准率有更大影响
$\beta = 1$ 时退化为标准的 $F_1$ 值
$F$ 越大越好

示例: 在前文的例子中有 $\operatorname{Precision} = \frac{1}{2}$ ， $\operatorname{Recall} = \frac{5}{12}$

则 $F_1 = \frac{2\times\operatorname{Precision}\times\operatorname{Recall}}{\operatorname{Precision}+\operatorname{Recall}}=5/11$

3.4 One-error

$\operatorname{one-error}\left(f\right)=\frac{1}{N}\sum\limits_{i=1}^N\llbracket\left[\arg\max\limits_{y\in\mathcal{Y}}f\left(\boldsymbol{x}_i,y\right)\right]\notin Y_i\rrbracket$

$\llbracket\left[\arg\max\limits_{y\in\mathcal{Y}}f\left(\boldsymbol{x}_i,y\right)\right]\notin Y_i\rrbracket$ ：在预测中，最有可能存在于 $\boldsymbol{x}_i$ 上的标签 $y$ 若并不存在于真实标签集合中，则记 $1$ 分，否则记 $0$ 分
越小越好

示例: 假设有两个样本

对样本一的预测值为 $y_{score} = [0.3, 0.4, 0.5, 0.1, 0.15]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ， $\boldsymbol{x}_1$ 上的真实标签集合 $Y_1$ 为 $\left\{l_1,l_3\right\}$
- 预测结果认为标签 $l_3$ 最有可能存在，因为其概率最大，为 $0.5$
- 有 $l_3\in Y_1$ ，该标签确实存在，故记 $0$ 分
对样本二的预测值为 $y_{score} = [0.4, 0.5, 0.7, 0.2, 0.6]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ， $\boldsymbol{x}_2$ 上的真实标签集合 $Y_2$ 为 $\left\{l_1,l_3,l_5\right\}$
- 预测结果认为标签 $l_3$ 最有可能存在，因为其概率最大，为 $0.7$
- 有 $l_3\in Y_2$ ，该标签确实存在，故记 $0$ 分
返回 $\operatorname{one-error}$ 的值为 $\frac{1}{2}\times(0+0)=0$

3.5 Coverage

$\operatorname{coverage}\left(f\right)=\frac{1}{N}\sum\limits_{i=1}^N\left(\max\limits_{y\in Y_i}rank_f\left(\boldsymbol{x}_i,y\right)-1\right)$

$\max\limits_{y\in Y_i}rank_f\left(\boldsymbol{x}_i,y\right)-1$ ：按预测结果概率降序排列后， $\boldsymbol{x}_i$ 上真实标签中最大的排名减 $1$
在 python 的 sklearn 库中对 coverage 的实现没有减 $1$ ，我也不太理解这里公式中为什么要减 $1$ ，现有以下猜测
- 从程序语言的角度来说，通常从 $0$ 开始计数，因此第 $i$ 个数的索引实际上是 $i - 1$ ，故需要减 $1$ ，所以公式中减 $1$ 了
- 从边界情况来说，如果一个标签都不存在，那么第 $0$ 个位置处就将 $1$ 覆盖完了，再减 $1$ 就是 $- 1$ ，不太妥当，所以 sklearn 库中的实现没有减 $1$ ?
- 无论如何，减不减 $1$ ，不影响对效果的评价，关键是要保持一致
越小越好

示例: 假设有两个样本

对样本一的预测值为 $y_{score} = [0.3, 0.4, 0.5, 0.1, 0.15]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，按概率排序有 $[0.5, 0.4, 0.3, 0.15, 0.1]$ ，对应的真实标签变为 $[1, 0, 1, 0, 0]$
- 真实标签的最大排名为 $3$ ，即得 $3 - 1 = 2$
- 换句话说，前 $3$ 个标签将 $1$ 全部覆盖，这里得到 $3 - 1 = 2$
对样本二的预测值为 $y_{score} = [0.4, 0.5, 0.7, 0.2, 0.6]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，按概率排序有 $[0.7, 0.6, 0.5, 0.4, 0.2]$ ，对应的真实标签变为 $[1, 1, 0, 1, 0]$
- 真实标签的最大排名为 $4$ ，即得 $4 - 1 = 3$
- 前 $4$ 个标签将 $1$ 全部覆盖，这里得到 $4 - 1 = 3$
返回 $\operatorname{coverage}$ 的值为 $\frac{1}{2}\times(2+3)=2.5$

3.6 Ranking Loss

$\operatorname{rloss}(f)=\frac{1}{N} \sum_{i=1}^N \frac{1}{\left|Y_i\right|\left|\bar{Y}_i\right|} \left|\left\{\left(y^{\prime}, y^{\prime \prime}\right) \mid f\left(\boldsymbol{x}_i, y^{\prime}\right) \leq f\left(\boldsymbol{x}_i, y^{\prime \prime}\right), \quad\left(y^{\prime}, y^{\prime \prime}\right) \in Y_i \times \bar{Y}_i\right\} \right|$

$Y_i$ ： $\boldsymbol{x}_i$ 上存在的标签集合
$\bar{Y}_i$ ： $Y_i$ 对于所有标签的补集，即， $\boldsymbol{x}_i$ 上不存在的标签集合
$\frac{1}{\left|Y_i\right|\left|\bar{Y}_i\right|} \left|\left\{\left(y^{\prime}, y^{\prime \prime}\right) \mid f\left(\boldsymbol{x}_i, y^{\prime}\right) \leq f\left(\boldsymbol{x}_i, y^{\prime \prime}\right), \quad\left(y^{\prime}, y^{\prime \prime}\right) \in Y_i \times \bar{Y}_i\right\} \right|$ ：即，由为 $0$ 的标签集合与为 $1$ 的标签集合组成的二元组中，将不存在的标签排在存在的标签前面的二元组所占的比例
越小越好

示例: 假设有两个样本

对样本一的预测值为 $y_{score} = [0.3, 0.4, 0.5, 0.1, 0.15]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，按概率排序后得到 $[0.5, 0.4, 0.3, 0.15, 0.1]$ ，对应的真实标签变为 $[1, 0, 1, 0, 0]$ ，从前往后分别为 $l_3,l_2,l_1,l_5,l_4$
- $Y_1$ 为 $\left\{l_1,l_3\right\}$ ，其基数为 $2$
- $\bar{Y}_1$ 为 $\left\{l_2,l_4,l_5\right\}$ ，其基数为 $3$
- $Y_1\times\bar{Y}_1$ 为一个含有 $6$ 个二元组的集合 $\left\{\left(l_1,l_2\right),\left(l_1,l_4\right),\left(l_1,l_5\right),\left(l_3,l_2\right),\left(l_3,l_4\right),\left(l_3,l_5\right)\right\}$
- 在 $Y_1\times\bar{Y}_1$ 的 $6$ 个二元组中元素的顺序与 $l_3,l_2,l_1,l_5,l_4$ 中元素顺序不同的只有
  - $\left(l_1,l_2\right)$
- 则这里得到 $1/6$
- 换句话说，分别选择一个存在的标签和不存在的标签，一共有 $6$ 种可能。在按照预测的结果，只有 $l_1$ 和 $l_2$ 这两个标签被弄错 (认为本不存在的标签 $l_2$ 出现在 $\boldsymbol{x}_1$ 上的概率比本就存在的标签 $l_1$ 出现的概率更大)
对样本二的预测值为 $y_{score} = [0.4, 0.5, 0.7, 0.2, 0.6]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，按概率排序有 $[0.7, 0.6, 0.5, 0.4, 0.2]$ ，对应的真实标签变为 $[1, 1, 0, 1, 0]$ ，从前往后分别为 $l_3,l_5,l_2,l_1,l_4$
- $Y_2$ 为 $\left\{l_1,l_3,l_5\right\}$ ，其基数为 $3$
- $\bar{Y}_2$ 为 $\left\{l_2,l_4\right\}$ ，其基数为 $2$
- $Y_2\times\bar{Y}_2$ 为一个含有 $6$ 个二元组的集合 $\left\{\left(l_1,l_2\right),\left(l_1,l_4\right),\left(l_3,l_2\right),\left(l_3,l_4\right),\left(l_5,l_2\right),\left(l_5,l_4\right)\right\}$
- 在 $Y_2\times\bar{Y}_2$ 的 $6$ 个二元组中元素的顺序与 $l_3,l_5,l_2,l_1,l_4$ 中元素顺序不同的只有
  - $\left(l_1,l_2\right)$
- 则这里得到 $1/6$
返回 $\operatorname{Ranking\ Loss}$ 的值为 $\frac{1}{2}\times(\frac{1}{6}+\frac{1}{6})=\frac{1}{6}$

3.7 Average Precision

$\operatorname{avgprec}(f)=\frac{1}{N} \sum_{i=1}^N \frac{1}{\left|Y_i\right|} \sum_{y \in Y_i} \frac{\left|\left\{y^{\prime} \mid \operatorname{rank}_f\left(\boldsymbol{x}, y^{\prime}\right) \leq \operatorname{rank}_f\left(\boldsymbol{x}_i, y\right), y^{\prime} \in Y_i\right\}\right|}{\operatorname{rank}_f\left(\boldsymbol{x}_i, y\right)}$

$\frac{\left|\left\{y^{\prime} \mid \operatorname{rank}_f\left(\boldsymbol{x}, y^{\prime}\right) \leq \operatorname{rank}_f\left(\boldsymbol{x}_i, y\right), y^{\prime} \in Y_i\right\}\right|}{\operatorname{rank}_f\left(\boldsymbol{x}_i, y\right)}$ ：即，对于值为 $1$ 的某个标签，在根据预测出的概率降序排序后，排在它前面的 (含它本身) 值为 $1$ 的标签个数比上它在该排序中的排名。
越大越好

示例: 假设有两个样本

对样本一的预测值为 $y_{score} = [0.3, 0.4, 0.5, 0.1, 0.15]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，按概率排序有 $[0.5, 0.4, 0.3, 0.15, 0.1]$ ，对应的真实标签变为 $[1, 0, 1, 0, 0]$ ，从前往后分别为 $l_3,l_2,l_1,l_5,l_4$
- $Y_1$ 为 $\left\{l_1,l_3\right\}$
- $l_1$ 的排名为 $3$ ，排在它之前的 (包含它自己) 真实存在标签有 $l_3$ 和 $l_1$ 共 $2$ 个，即有 $2/3$
- $l_3$ 的排名为 $1$ ，排在它之前的 (包含它自己) 真实存在标签只有 $l_3$ 共 $1$ 个，即有 $1/1$
- 这里总共得到 $\frac{1}{2}(\frac{2}{3}+1)=\frac{5}{6}$
对样本二的预测值为 $y_{score} = [0.4, 0.5, 0.7, 0.2, 0.6]$ ，真实标签向量为 $y_{true} =[1, 0, 1, 0, 1]$ ，按概率排序有 $[0.7, 0.6, 0.5, 0.4, 0.2]$ ，对应的真实标签变为 $[1, 1, 0, 1, 0]$ ，从前往后分别为 $l_3,l_5,l_2,l_1,l_4$
- $Y_2$ 为 $\left\{l_1,l_3,l_5\right\}$
- $l_1$ 的排名为 $4$ ，排在它之前的 (包含它自己) 真实存在标签有 $l_3$ ， $l_5$ 和 $l_1$ 共 $3$ 个，即有 $3/4$
- $l_3$ 的排名为 $1$ ，排在它之前的 (包含它自己) 真实存在标签只有 $l_3$ 共 $1$ 个，即有 $1/1 = 1$
- $l_5$ 的排名为 $2$ ，排在它之前的 (包含它自己) 真实存在标签有 $l_3$ 和 $l_5$ 共 $2$ 个，即有 $2/2 = 1$
- 这里总共得到 $\frac{1}{3}(\frac{3}{4}+1+1)=\frac{11}{12}$
返回 $\operatorname{average\ precision}$ 的值为 $\frac{1}{2}\times(\frac{5}{6}+\frac{11}{12})=\frac{7}{8}$

3.8 NDCG

$NDCG\left(f\right)=\frac{DCG\left(f\right)}{IDCG}=\frac{\sum\limits_{i=1}^k\frac{\hat{y}_i}{\log\left(1+l\right)}}{\sum\limits_{i=1}^m\frac{1}{\log\left(1+l\right)}}$

NDCG 是 DCG 的归一化
DCG：即，根据预测出的概率进行排序，对该排序的打分
IDCG：即，完全预测正确时的完美评分
越大越好

示例: 假设有多个样本，可以直接将标签矩阵展开成标签向量

预测值为 $y_{score} = [0.3, 0.4, 0.5, 0.1, 0.15]$ ，真实标签向量为 $y_{true} = [1, 0, 1, 0, 0]$ ，按概率排序有 $[0.5, 0.4, 0.3, 0.15, 0.1]$ ，对应的真实标签变为 $[1, 0, 1, 0, 0]$ ，完美排序标签为 $[1, 1, 0, 0, 0]$
- DCG 得分为 $\frac{1}{\log\left(1+1\right)}+\frac{1}{\log\left(1+3\right)}$ ，因为两个 $1$ 的位置在第 $1$ 位和第 $3$ 位
- IDCG 得分为 $\frac{1}{\log\left(1+1\right)}+\frac{1}{\log\left(1+2\right)}$
- 得到 $NDCG=\frac{DCG}{IDCG}$

3.9 peak-F1

当 $\beta$ 取值为 $1$ 时， $F^\beta$ 退化为标准 $F_1$ ，此时查准率和查全率一样重要。对得到的一个预测结果，按概率进行降序排序后，依次将每个标签预测为 $1$ ，可以得到一系列的 $F_1$ 值，其中最大的那个，就记做 peak-F1

越大越好

4. label-based

针对每个标签可以由一个二元分类器 $h(\cdot)$ 得到以下四个度量性能的指标，下图被称为分类结果混淆矩阵。
![在这里插入图片描述](https://img-blog.csdnimg.cn/a381a30b23624220a40681a07914367f.png
$\begin{gathered} T P_j=\left|\left\{\boldsymbol{x}_i \mid y_j \in Y_i \wedge y_j \in h\left(\boldsymbol{x}_i\right), 1 \leq i \leq p\right\}\right| ; \quad F P_j=\left|\left\{\boldsymbol{x}_i \mid y_j \notin Y_i \wedge y_j \in h\left(\boldsymbol{x}_i\right), 1 \leq i \leq p\right\}\right| \\ T N_j=\left|\left\{\boldsymbol{x}_i \mid y_j \notin Y_i \wedge y_j \notin h\left(\boldsymbol{x}_i\right), 1 \leq i \leq p\right\}\right| ; \quad F N_j=\left|\left\{\boldsymbol{x}_i \mid y_j \in Y_i \wedge y_j \notin h\left(\boldsymbol{x}_i\right), 1 \leq i \leq p\right\}\right| \end{gathered}$
前文的精度，查准率，查全率可以根据这 $4$ 个指标进行定义

Accuracy
$Accuracy=\frac{TP+TN}{TP+FP+TN+FN}$
Precision
$Precision=\frac{TP}{TP+FP}$
Recall
$Recall=\frac{TP}{TP+FN}$

4.1 Macro-averaging 与 Micro-averaging

令 $B(TP_j,FP_j,TN_j,FN_j)$ 为一种特定的二分类度量，即 $B\in\left\{Accuracy, Precision, Recall, F^\beta\right\}$ ，由此可以得到 Macro-averaging 与 Micro-averaging 两种评价指标

4.1.1 Macro-averaging

$B_{\text {macro }}(h)=\frac{1}{L} \sum_{j=1}^L B\left(T P_j, F P_j, T N_j, F N_j\right)$

即，先分别求各个标签的二分类度量，再求均值

4.1.2 Micro-averaging

$B_{\text {micro }}(h)=B\left(\sum_{j=1}^L T P_j, \sum_{j=1}^L F P_j, \sum_{j=1}^L T N_j, \sum_{j=1}^L F N_j\right)$

即，先将所有标签的 $TP_j,FP_j,TN_j,FN_j$ 各自累加起来，得到一个混淆矩阵，再求得二分类度量

4.2 AUCmacro 与 AUCmicro

4.2.1 单标签的 AUC

AUC 是 Area Under ROC Curve 的缩写，而 ROC 是以假正例率为横轴，真正例率为纵轴所绘制出的图线，具体的绘图过程如下，

按学习器预测结果进行排序
将分类阈值设为最大，所有样例被分为反例，此时可以得到一个混淆矩阵，因而可以绘制出 ROC 图中的一个点 (0, 0)
减小阈值，即依次将阈值设为每个样例的预测值，每次可以在 ROC 图中绘制一个点
用线段连接相邻点即可

注：

假正例率： $TPR=\frac{TP}{TP+FN}$ ，即，真正例中被预测为正例的比例
真正例率： $FPR=\frac{FP}{TN+FP}$ ，即，真反例中被预测为正例的反例
$A U C$ 为 $0.5$ 时相当于随机猜测

4.2.2 AUCmacro

$C_{\text {macro }}=\frac{1}{L} \sum_{j=1}^L A U C_j=\frac{1}{L} \sum_{j=1}^L \frac{\left|\left\{\left(\boldsymbol{x}^{\prime}, \boldsymbol{x}^{\prime \prime}\right) \mid f\left(\boldsymbol{x}^{\prime}, y_j\right) \geq f\left(\boldsymbol{x}^{\prime \prime}, y_j\right),\left(\boldsymbol{x}^{\prime}, \boldsymbol{x}^{\prime \prime}\right) \in \mathcal{Z}_j \times \bar{\mathcal{Z}}_j\right\}\right|}{\left|\mathcal{Z}_j\right|\left|\bar{\mathcal{Z}}_j\right|}$

其中， $\mathcal{Z}_j=\left\{\boldsymbol{x}_i\mid y_j\in Y_i, 1\leq i\leq N\right\}(\bar{\mathcal{Z}}_j=\left\{\boldsymbol{x}_i\mid y_j\notin Y_i, 1\leq i\leq N\right\})$
即，针对每个标签分别求出 $A U C$ 指标，再求均值
可以看出计算单个标签 $A U C$ 的形式与 $\operatorname{Ranking\ Loss}$ 的式子非常相似，区别在于
- $\operatorname{AUC}$ 是计算将正例排在负例前的奖励分
- $\operatorname{Ranking\ Loss}$ 是计算将负例排在正例前的惩罚分
- 即 $\operatorname{AUC}$ 计算 ROC 曲线下的面积，而 $\operatorname{Ranking\ Loss}$ 计算 ROC 曲线上的面积，二者之和为 $1$

4.2.3 AUCmicro

$C_{\text {micro }}=\frac{\left|\left\{\left(\boldsymbol{x}^{\prime}, \boldsymbol{x}^{\prime \prime}, y^{\prime}, y^{\prime \prime}\right) \mid f\left(\boldsymbol{x}^{\prime}, y^{\prime}\right) \geq f\left(\boldsymbol{x}^{\prime \prime}, y^{\prime \prime}\right),\left(\boldsymbol{x}^{\prime}, y^{\prime}\right) \in \mathcal{S}^{+},\left(\boldsymbol{x}^{\prime \prime}, y^{\prime \prime}\right) \in \mathcal{S}^{-}\right\}\right|}{\left|\mathcal{S}^{+}\right|\left|\mathcal{S}^{-}\right|}$

其中， $\mathcal{S}^+=\left\{(\boldsymbol{x}_i,y)\mid y\in Y_i, 1\leq i\leq N\right\}(\mathcal{S}^-=\left\{(\boldsymbol{x}_i,y)\mid y\notin Y_i, 1\leq i\leq N\right\})$ ，分别代表 $\boldsymbol{x}_i$ 中有 (无) 标签 $y$ ，二者的并就是 $\mathcal{X}$ 与 $\mathcal{Y}$ 的笛卡尔积
该式的含义为，先将 $\mathcal{X}$ 与 $\mathcal{Y}$ 求笛卡尔积，得到的 $(\boldsymbol{x}, y)$ 可以根据 $\boldsymbol{x}$ 中是否有标签 $y$ 来进行分类，从而划分得到两个集合 $\mathcal{S}^+$ 和 $\mathcal{S}^-$
再将 $\mathcal{S}^+$ 和 $\mathcal{S}^-$ 作笛卡尔积，统计将 $\mathcal{S}^+$ 的元素排在 $\mathcal{S}^-$ 前面的元素所占的比例 (根据预测的概率进行排序)
即，和 $\operatorname{Ranking\ Loss}$ 相反