论文笔记: 多标签学习 GLOCAL

摘要: 分享对论文的理解. 原文见 Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.

1. 论文贡献

  • 将标签矩阵进行矩阵分解, 所获得的子空间就没有缺失值了.
  • 子空间能够表达标签相关性.
  • 聚类后进行局部拟合.

2. 基本符号

符号维度含义
n n n对象个数
l l l标签个数
k k k隐含标签个数
X \mathbf{X} X d × n d \times n d×n数据矩阵
Y \mathbf{Y} Y l × n l \times n l×n标签矩阵
U \mathbf{U} U l × k l \times k l×k从隐含标签向真实标签的映射
V \mathbf{V} V k × n k \times n k×n从对象向隐含标签的映射
W \mathbf{W} W d × k d \times k d×k权值矩阵

3. 基本思想

3.1 线性模型 (复习)

W T × X ≈ Y \mathbf{W}^\mathrm{T} \times \mathrm{X} \approx \mathbf{Y} WT×XY, 这时 W \mathbf{W} W d × l d \times l d×l
线性模型的优点: 直截了当.
缺点: 线性太简单, 相当于 W \mathbf{W} W 的每一列服务于一个标签, 不能体现标签相关性.

3.2 矩阵分解模型

U × V ≈ Y \mathbf{U} \times \mathbf{V} \approx \mathbf{Y} U×VY
即将 Y \mathbf{Y} Y 分解为两个矩阵. 但这种模型只能用于矩阵填充, 如缺失标签的补齐, 不能直接用于预测.

3.3 矩阵分解之后的线性模型

W T × X ≈ V \mathbf{W}^\mathrm{T} \times \mathbf{X} \approx \mathbf{V} WT×XV
即用拟合分解后的矩阵 V \mathbf{V} V.
优势:

  • 隐含标签矩阵没有缺失值;
  • 隐含标签可以比实际标签少;
  • 支持预测: U W T x \mathbf{U} \mathbf{W}^\mathrm{T} \mathbf{x} UWTx: 就是对实例 x \mathbf{x} x 的标签预测,结果是 l × 1 l \times 1 l×1 的. 这里的 x \mathbf{x} x 既可以是 X \mathbf{X} X 的一个实例, 也可以是新的实例.

4. 优化目标

min ⁡ U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) (1) \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|_F^2 + \lambda \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W}) \tag{1} U,V,UminΠΩ(YUV)F2+λVWTXF2+λ2R(U,V,W)(1)
解释:

  • Π Ω \Pi_{\Omega} ΠΩ 应对缺失标签, 不能对相应的拟合值进行惩罚. 矩阵分解通常都采用这种方案;
  • 第一部分表示 U V \mathbf{UV} UV 拟合 Y \mathbf{Y} Y 的质量;
  • 第二部分表示 W T × W \mathbf{W}^\mathrm{T} \times \mathbf{W} WT×W 拟合 V \mathbf{V} V 的质量;
  • 第三部分表示对几个参数矩阵的正则化. 可以分别对它们正则化.

min ⁡ U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ 1 ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) + λ 3 t r ( F 0 T L 0 F 0 ) + ∑ m = 1 g λ 4 t r ( F m T L m F m ) (2) \begin{array}{ll} \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} & \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|^2_F + \lambda_1 \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W})\\ &+ \lambda_3 tr(\mathbf{F}_0^{\mathrm{T}} \mathbf{L}_0 \mathbf{F}_0) +\sum_{m = 1}^g \lambda_4 tr(\mathbf{F}_m^{\mathrm{T}} \mathbf{L}_m \mathbf{F}_m) \tag{2} \end{array} minU,V,UΠΩ(YUV)F2+λ1VWTXF2+λ2R(U,V,W)+λ3tr(F0TL0F0)+m=1gλ4tr(FmTLmFm)(2)
解释:

  • 前三部分与 (1) 相同;
  • 第四、五部分计算矩阵的轶, 轶越低越好.
  • F 0 \mathbf{F}_0 F0 是对 X \mathbf{X} X 中所有实例预测导致的矩阵, 用于拟合 Y \mathbf{Y} Y. 以此实现 Global 优化.
  • S 0 1 \mathbf{S}_0 \mathbf{1} S01 有两种可能:
    a) 将 S 0 \mathbf{S}_0 S0 中对角线的元素保留,其它的位置为 0;
    b) 将 S 0 \mathbf{S}_0 S0 的每 i i i 行的值相加, 放到 ( i , i ) (i, i) (i,i) 位置, 其它位置为 0.
  • 聚类: 原始 n n n = 1000, 聚类后 n 1 n_1 n1 = 100, n 2 n_2 n2 = 300, n 3 n_3 n3 = 600
    获得 X 1 , X 2 , X 3 \mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3 X1,X2,X3.
    F m \mathbf{F}_m Fm 是对各簇的拟合. 以此实现 Local 优化.
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值