论文笔记: 极限多标签学习的基本理解

摘要: 描述对极限多标签学习的基本理解, 包括数据特点、应用领域、评价指标、算法流派等. 核心资源链接: http://manikvarma.org/downloads/XC/XMLRepository.html.

1. 数据特点

相对于多标签学习而言, 极限多标签学习有如下特点:

  • 更大的数据量. 上百万.
  • 大量的缺值. 网页等数据里面大多数是 0. 导致数据文件都使用压缩格式, 只存储非 0 的部分 (包括位置信息).
  • 大量的标签. 至少几千, 经常上百万.
  • 标签稀疏. 一个对象只有少量标签, 每个标签只对应于少量对象.

总之, 真不知道这些人哪来的勇气干这么变态的问题.

2. 应用领域

2.1 文本检索

当前见到的数据集都写了 BoW (bag-of-words), 应该是从文档里面获得的. 不知道是否还有其它的数据源. 从这个角度来看, 就是进行文本检索、分类等.

2.2 图像识别

只是我估计的, 不知道具体有哪些数据集, 以及哪些应用. 以后见到了补充吧.

2.3 推荐系统

从 Amazon 网站上就获得了大量数据, 应该是可以用于推荐吧.

3. 评价指标

不是平常的 accuracy 之类. 一般都是与序有关, 即学习器只需要输出对象与标签的契合度之类.
y ∈ { 0 , 1 } L \mathbf{y} \in \{0, 1\}^L y{0,1}L 表示实际标签向量, y ^ \hat{\mathbf{y}} y^ 表示预测向量, rank 表示逆序排列.

  • precision@ k k k 计算前 k k k 个的预测精度.
    P @ k : = 1 k ∑ l ∈ r a n k k ( y ^ ) y l (1) \mathrm{P}@k := \frac{1}{k} \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})}y_l \tag{1} P@k:=k1lrankk(y^)yl(1)
  • DCG@ k k k 为排在后面的加了较小的权.
    D C G @ k : = ∑ l ∈ r a n k k ( y ^ ) y l log ⁡ ( l + 1 ) (2) \mathrm{DCG}@k := \sum_{l \in \mathrm{rank}_k(\hat{\mathbf{y}})} \frac{y_l}{\log(l + 1)} \tag{2} DCG@k:=lrankk(y^)log(l+1)yl(2)
    注意这里有点小问题, 下标 l l l 的取值范围是 [ 1 , L ] [1, L] [1,L], 但 log ⁡ \log log 里面的取值范围是 [ 1 , k ] [1, k] [1,k].
  • nDCG 将取值控制在 [ 0 , 1 ] [0, 1] [0,1] 区间.
    n D C G @ k : = D C G @ k ∑ l = 1 min ⁡ { k , ∥ y ∥ 0 } 1 log ⁡ ( l + 1 ) (3) \mathrm{nDCG}@k := \frac{\mathrm{DCG}@k}{\sum_{l = 1}^{\min\{k, \|\mathbf{y}\|_0\}}\frac{1}{\log(l + 1)}} \tag{3} nDCG@k:=l=1min{k,y0}log(l+1)1DCG@k(3)
  • PSP@ k k k
  • PSDCG@ k k k

4. 算法流派

4.1 1-vs-All: 每个标签单独建模

使用线性分类器, 每个标签的训练复杂度为 O ( N D ^ ) O(N \hat{D}) O(ND^); 其中 D ^ \hat{D} D^ 看作正标签的数量.
所有标签的训练复杂度为 O ( L N D ^ ) O(L N \hat{D}) O(LND^).
所有标签的预测复杂度为 O ( L D ^ ) O(L \hat{D}) O(LD^).

4.2 Trees: 树型结构

为标签建一棵树, L L L 个标签的树深度至少为 log ⁡ L \log L logL. 也可以考虑每个叶节点包括多个标签.
预测的时候, 从树根往树叶走. 等我读了论文再回来写.
代表论文:

  • Yashoteja Prabhu and Manik Varma, FastXML: A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning. In KDD, pages 1–10, 2014.
  • R. Agrawal, A. Gupta, Y. Prabhu, and M. Varma. Multi-label learning with millions of labels: Recommending advertiser bid phrases for web pages. In WWW, pages 13–24, 2013.

4.3 Embeddings: 嵌入

由于数据矩阵与标签矩阵都是稀疏、低轶的, 使用矩阵, 将它们映射到低维空间.
使用 D × D ^ D \times \hat{D} D×D^ 矩阵映射数据矩阵; L × L ^ L \times \hat{L} L×L^ 矩阵映射标签矩阵.
对于标签矩阵而言, 预测后使用相同的矩阵进行逆映射即可.

4.4 Deep-learning: 深度学习

5. 小结

训练时间长, 预测性能提升应该有比较大的空间.


未完待续

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值