摘要: 描述对极限多标签学习的基本理解, 包括数据特点、应用领域、评价指标、算法流派等. 核心资源链接: http://manikvarma.org/downloads/XC/XMLRepository.html.
1. 数据特点
相对于多标签学习而言, 极限多标签学习有如下特点:
- 更大的数据量. 上百万.
- 大量的缺值. 网页等数据里面大多数是 0. 导致数据文件都使用压缩格式, 只存储非 0 的部分 (包括位置信息).
- 大量的标签. 至少几千, 经常上百万.
- 标签稀疏. 一个对象只有少量标签, 每个标签只对应于少量对象.
总之, 真不知道这些人哪来的勇气干这么变态的问题.
2. 应用领域
2.1 文本检索
当前见到的数据集都写了 BoW (bag-of-words), 应该是从文档里面获得的. 不知道是否还有其它的数据源. 从这个角度来看, 就是进行文本检索、分类等.
2.2 图像识别
只是我估计的, 不知道具体有哪些数据集, 以及哪些应用. 以后见到了补充吧.
2.3 推荐系统
从 Amazon 网站上就获得了大量数据, 应该是可以用于推荐吧.
3. 评价指标
不是平常的 accuracy 之类. 一般都是与序有关, 即学习器只需要输出对象与标签的契合度之类.
y
∈
{
0
,
1
}
L
\mathbf{y} \in \{0, 1\}^L
y∈{0,1}L 表示实际标签向量,
y
^
\hat{\mathbf{y}}
y^ 表示预测向量, rank 表示逆序排列.
- precision@
k
k
k 计算前
k
k
k 个的预测精度.
P @ k : = 1 k ∑ l ∈ r a n k k ( y ^ ) y l (1) \mathrm{P}@k := \frac{1}{k} \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})}y_l \tag{1} P@k:=k1l∈rankk(y^)∑yl(1) - DCG@
k
k
k 为排在后面的加了较小的权.
D C G @ k : = ∑ l ∈ r a n k k ( y ^ ) y l log ( l + 1 ) (2) \mathrm{DCG}@k := \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})} \frac{y_l}{\log(l + 1)} \tag{2} DCG@k:=l∈rankk(y^)∑log(l+1)yl(2)
注意这里有点小问题, 下标 l l l 的取值范围是 [ 1 , L ] [1, L] [1,L], 但 log \log log 里面的取值范围是 [ 1 , k ] [1, k] [1,k]. - nDCG 将取值控制在
[
0
,
1
]
[0, 1]
[0,1] 区间.
n D C G @ k : = D C G @ k ∑ l = 1 min { k , ∥ y ∥ 0 } 1 log ( l + 1 ) (3) \mathrm{nDCG}@k := \frac{\mathrm{DCG}@k}{\sum_{l = 1}^{\min\{k, \|\mathbf{y}\|_0\}}\frac{1}{\log(l + 1)}} \tag{3} nDCG@k:=∑l=1min{k,∥y∥0}log(l+1)1DCG@k(3) - PSP@ k k k
- PSDCG@ k k k
4. 算法流派
4.1 1-vs-All: 每个标签单独建模
使用线性分类器, 每个标签的训练复杂度为
O
(
N
D
^
)
O(N \hat{D})
O(ND^); 其中
D
^
\hat{D}
D^ 看作正标签的数量.
所有标签的训练复杂度为
O
(
L
N
D
^
)
O(L N \hat{D})
O(LND^).
所有标签的预测复杂度为
O
(
L
D
^
)
O(L \hat{D})
O(LD^).
4.2 Trees: 树型结构
为标签建一棵树,
L
L
L 个标签的树深度至少为
log
L
\log L
logL. 也可以考虑每个叶节点包括多个标签.
预测的时候, 从树根往树叶走. 等我读了论文再回来写.
代表论文:
- Yashoteja Prabhu and Manik Varma, FastXML: A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning. In KDD, pages 1–10, 2014.
- R. Agrawal, A. Gupta, Y. Prabhu, and M. Varma. Multi-label learning with millions of labels: Recommending advertiser bid phrases for web pages. In WWW, pages 13–24, 2013.
4.3 Embeddings: 嵌入
由于数据矩阵与标签矩阵都是稀疏、低轶的, 使用矩阵, 将它们映射到低维空间.
使用
D
×
D
^
D \times \hat{D}
D×D^ 矩阵映射数据矩阵;
L
×
L
^
L \times \hat{L}
L×L^ 矩阵映射标签矩阵.
对于标签矩阵而言, 预测后使用相同的矩阵进行逆映射即可.
4.4 Deep-learning: 深度学习
5. 小结
训练时间长, 预测性能提升应该有比较大的空间.
未完待续