论文笔记: 多标签学习 MSWL

摘要: 分享对论文的理解. 原文见 Zhang, J., Li, S., Jiang, M., & Tan, K. C. (2020). Learning from weakly labeled data based on manifold regularized sparse model. IEEE Transactions on Cybernetics, (pp. 1–14).

1. 论文贡献

  • 解决半监督的带缺失值多标签学习问题. 其实有缺失标签的时候, 已经是半监督了. 这篇论文强调的是, 有些样本一个标签都不给.
  • 全局与局部标签相关性.
  • 稀疏性学习模型, 条件属性的辨别性.

2. 基本符号

符号含义说明
X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} XRn×d属性矩阵
Y ∈ { − 1 , 1 } n × q \mathbf{Y} \in \{-1, 1\}^{n \times q} Y{1,1}n×q标签矩阵
C ∈ { 0 , 1 } n × q \mathbf{C} \in \{0, 1\}^{n \times q} C{0,1}n×q观测标签矩阵 c i j = 0 c_{ij} = 0 cij=0 对应于 y i j = − 1 y_{ij} = -1 yij=1 1 1 1
Ω = { 1 , … , n } × { 1 , … , c } \mathbf{\Omega} = \{1, \dots, n\} \times \{1, \dots, c\} Ω={1,,n}×{1,,c}观测标签位置集合
W ∈ R m × l \mathbf{W} \in \mathbb{R}^{m \times l} WRm×l系数矩阵仍然是线性模型
w i ∈ R m \mathbf{w}_i \in \mathbb{R}^m wiRm某一标签的系数向量
C ∈ R l × l \mathbf{C} \in \mathbb{R}^{l \times l} CRl×l标签相关性矩阵成对相关性, 不满足对称性

3. 算法

在这里插入图片描述

图 1. 算法总览

基本的优化目标:
min ⁡ W V ( X , C , W ) + γ Ω ( W ) + μ Z ( X , C , W ) , (1) \min_{\mathbf{W}} V(\mathbf{X}, \mathbf{C}, \mathbf{W}) + \gamma \Omega(\mathbf{W}) + \mu Z(\mathbf{X}, \mathbf{C}, \mathbf{W}), \tag{1} WminV(X,C,W)+γΩ(W)+μZ(X,C,W),(1)
其中 V V V 是损失函数, Z Z Z 根据标签相关性信息增强弱标签学习能力.

3.1 损失函数

V ( X , C , W ) = ∥ X W − Y ~ ∥ 2 2 , (2) V(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \|\mathbf{XW} - \tilde{\mathbf{Y}}\|_2^2, \tag{2} V(X,C,W)=XWY~22,(2)
其中 Y ~ \tilde{\mathbf{Y}} Y~ 是从 C \mathbf{C} C 计算而来, 希望拟合 Y \mathbf{Y} Y. 具体方法如下:
如果 c i j = 0 c_{ij} = 0 cij=0, 表示缺值或负标签, 则
c ~ i j = ∑ p ∈ N j c i p b p j , (3) \tilde{c}_{ij} = \sum_{p \in \mathcal{N}_j} c_{ip} b_{pj}, \tag{3} c~ij=pNjcipbpj,(3)
其中 N j \mathcal{N}_j Nj 表示标签 j j j 的所有邻居标签, b p j b_{pj} bpj 表示标签 p p p 与标签 j j j 的相关性. 可以记为 (这里有点小的问题, 丢失了邻居信息)
C ~ = C ( B + I ) . \tilde{\mathbf{C}} = \mathbf{C}(\mathbf{B} + \mathbf{I}). C~=C(B+I).
y ~ i j = { 1 , c ~ i j ≥ 1 ; c ~ i j , 0 < c ~ i j < 1 ; 0 , c ~ i j ≤ 0. (4) \tilde{y}_{ij} = \left\{\begin{array}{ll} 1, & \tilde{c}_{ij} \geq 1;\\ \tilde{c}_{ij}, & 0 < \tilde{c}_{ij} < 1;\\ 0, & \tilde{c}_{ij} \leq 0. \end{array}\right.\tag{4} y~ij=1,c~ij,0,c~ij1;0<c~ij<1;c~ij0.(4)

3.2 正则项

使用 l 2 , 1 \mathcal{l}_{2, 1} l2,1 范数控制稀疏性.
Ω ( W ) = ∥ W ∥ 2 , 1 = ∑ i = 1 n ∑ j = 1 t w i j 2 , \Omega(\mathbf{W}) = \|\mathbf{W}\|_{2, 1} = \sum_{i = 1}^n \sqrt{\sum_{j = 1}^t w_{ij}^2}, Ω(W)=W2,1=i=1nj=1twij2 ,
即逐行取 2 范数再相加. 更多理解见 这里.

3.3 标签相关性学习 (全局与局部的流形正则)

  • 全局相关性
    min ⁡ b i ∥ C − i b i − c i ∥ 2 2 + λ ∥ b i ∥ , (6) \min_{\mathbf{b}_i} \|\mathbf{C}_{-i} \mathbf{b}_i - \mathbf{c}_i\|_2^2 + \lambda \|\mathbf{b}_i\|, \tag{6} biminCibici22+λbi,(6)
    其中 C − i \mathbf{C}_{-i} Ci 是将第 i i i 列标签全部置为 0 所获得的不完整矩阵. 该式的具体优化方法略, 反正我也没看懂.
  • 局部相关性
    min ⁡ S ∑ i = 1 n ∥ x i − ∑ j ∈ N i s j i x j ∥ 2 , (11) \min_{\mathbf{S}} \sum_{i = 1}^n \|\mathbf{x}_i - \sum_{j \in \mathcal{N}_i} s_{ji} \mathbf{x}_j\|^2, \tag{11} Smini=1nxijNisjixj2,(11)
    其中 K K K 是邻居数量, s i j s_{ij} sij x i \mathbf{x}_i xi 与其邻居 x j \mathbf{x}_j xj 的相似性.

注意原文有几个小问题:

  • s i j ∈ S s_{ij} \in \mathbf{S} sijS 的写法不正确, 后者并非一个矩阵. 其实不写也没有歧义;
  • j j j 个邻居与第 j j j 个标签之间, 相关了一个间址, 因此使用 j ∈ N i j \in \mathcal{N}_i jNi;
  • 怀疑下标 2 没写, 导致不是 2 范数.

最后
Z ( X , C , W ) = α ∥ W − W B ∥ F 2 + β ∥ X W − S X W ∥ F 2 Z(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \alpha \|\mathbf{W} - \mathbf{WB}\|_F^2 + \beta \|\mathbf{XW} - \mathbf{SXW}\|_F^2 Z(X,C,W)=αWWBF2+βXWSXWF2

3.4 扩展到半监督学习

自悟.

4. 小结

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值