论文笔记: 极限多标签学习的基本理解

闵帆

已于 2022-09-11 19:23:42 修改

阅读量570

点赞数 2

分类专栏：论文笔记文章标签：学习算法机器学习

于 2022-09-07 09:19:43 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/126737848

版权

29 篇文章 3 订阅

订阅专栏

摘要: 描述对极限多标签学习的基本理解, 包括数据特点、应用领域、评价指标、算法流派等. 核心资源链接: http://manikvarma.org/downloads/XC/XMLRepository.html.

1. 数据特点

相对于多标签学习而言, 极限多标签学习有如下特点:

总之, 真不知道这些人哪来的勇气干这么变态的问题.

当前见到的数据集都写了 BoW (bag-of-words), 应该是从文档里面获得的. 不知道是否还有其它的数据源. 从这个角度来看, 就是进行文本检索、分类等.

只是我估计的, 不知道具体有哪些数据集, 以及哪些应用. 以后见到了补充吧.

从 Amazon 网站上就获得了大量数据, 应该是可以用于推荐吧.

不是平常的 accuracy 之类. 一般都是与序有关, 即学习器只需要输出对象与标签的契合度之类.
$\mathbf{y} \in \{0, 1\}^L$ 表示实际标签向量, $\hat{\mathbf{y}}$ 表示预测向量, rank 表示逆序排列.

precision@ $k$ 计算前 $k$ 个的预测精度.
$\mathrm{P}@k := \frac{1}{k} \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})}y_l \tag{1}$
DCG@ $k$ 为排在后面的加了较小的权.
$\mathrm{DCG}@k := \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})} \frac{y_l}{\log(l + 1)} \tag{2}$
注意这里有点小问题, 下标 $l$ 的取值范围是 $[1, L]$ , 但 $\log$ 里面的取值范围是 $[1, k]$ .
nDCG 将取值控制在 $[0, 1]$ 区间.
$\mathrm{nDCG}@k := \frac{\mathrm{DCG}@k}{\sum_{l = 1}^{\min\{k, \|\mathbf{y}\|_0\}}\frac{1}{\log(l + 1)}} \tag{3}$
PSP@ $k$
PSDCG@ $k$

使用线性分类器, 每个标签的训练复杂度为 $\hat{D})$ ; 其中 $\hat{D}$ 看作正标签的数量.
所有标签的训练复杂度为 $\hat{D})$ .
所有标签的预测复杂度为 $\hat{D})$ .

为标签建一棵树, $L$ 个标签的树深度至少为 $\log L$ . 也可以考虑每个叶节点包括多个标签.
预测的时候, 从树根往树叶走. 等我读了论文再回来写.
代表论文:

Yashoteja Prabhu and Manik Varma, FastXML: A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning. In KDD, pages 1–10, 2014.
R. Agrawal, A. Gupta, Y. Prabhu, and M. Varma. Multi-label learning with millions of labels: Recommending advertiser bid phrases for web pages. In WWW, pages 13–24, 2013.