摘要: 分享对论文的理解. 原文见 Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.
1. 论文贡献
- 将标签矩阵进行矩阵分解, 所获得的子空间就没有缺失值了.
- 子空间能够表达标签相关性.
- 聚类后进行局部拟合.
2. 基本符号
符号 | 维度 | 含义 |
---|---|---|
n n n | 对象个数 | |
l l l | 标签个数 | |
k k k | 隐含标签个数 | |
X \mathbf{X} X | d × n d \times n d×n | 数据矩阵 |
Y \mathbf{Y} Y | l × n l \times n l×n | 标签矩阵 |
U \mathbf{U} U | l × k l \times k l×k | 从隐含标签向真实标签的映射 |
V \mathbf{V} V | k × n k \times n k×n | 从对象向隐含标签的映射 |
W \mathbf{W} W | d × k d \times k d×k | 权值矩阵 |
3. 基本思想
3.1 线性模型 (复习)
W
T
×
X
≈
Y
\mathbf{W}^\mathrm{T} \times \mathrm{X} \approx \mathbf{Y}
WT×X≈Y, 这时
W
\mathbf{W}
W 为
d
×
l
d \times l
d×l
线性模型的优点: 直截了当.
缺点: 线性太简单, 相当于
W
\mathbf{W}
W 的每一列服务于一个标签, 不能体现标签相关性.
3.2 矩阵分解模型
U
×
V
≈
Y
\mathbf{U} \times \mathbf{V} \approx \mathbf{Y}
U×V≈Y
即将
Y
\mathbf{Y}
Y 分解为两个矩阵. 但这种模型只能用于矩阵填充, 如缺失标签的补齐, 不能直接用于预测.
3.3 矩阵分解之后的线性模型
W
T
×
X
≈
V
\mathbf{W}^\mathrm{T} \times \mathbf{X} \approx \mathbf{V}
WT×X≈V
即用拟合分解后的矩阵
V
\mathbf{V}
V.
优势:
- 隐含标签矩阵没有缺失值;
- 隐含标签可以比实际标签少;
- 支持预测: U W T x \mathbf{U} \mathbf{W}^\mathrm{T} \mathbf{x} UWTx: 就是对实例 x \mathbf{x} x 的标签预测,结果是 l × 1 l \times 1 l×1 的. 这里的 x \mathbf{x} x 既可以是 X \mathbf{X} X 的一个实例, 也可以是新的实例.
4. 优化目标
min
U
,
V
,
U
∥
Π
Ω
(
Y
−
U
V
)
∥
F
2
+
λ
∥
V
−
W
T
X
∥
F
2
+
λ
2
R
(
U
,
V
,
W
)
(1)
\min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|_F^2 + \lambda \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W}) \tag{1}
U,V,Umin∥ΠΩ(Y−UV)∥F2+λ∥V−WTX∥F2+λ2R(U,V,W)(1)
解释:
- Π Ω \Pi_{\Omega} ΠΩ 应对缺失标签, 不能对相应的拟合值进行惩罚. 矩阵分解通常都采用这种方案;
- 第一部分表示 U V \mathbf{UV} UV 拟合 Y \mathbf{Y} Y 的质量;
- 第二部分表示 W T × W \mathbf{W}^\mathrm{T} \times \mathbf{W} WT×W 拟合 V \mathbf{V} V 的质量;
- 第三部分表示对几个参数矩阵的正则化. 可以分别对它们正则化.
min
U
,
V
,
U
∥
Π
Ω
(
Y
−
U
V
)
∥
F
2
+
λ
1
∥
V
−
W
T
X
∥
F
2
+
λ
2
R
(
U
,
V
,
W
)
+
λ
3
t
r
(
F
0
T
L
0
F
0
)
+
∑
m
=
1
g
λ
4
t
r
(
F
m
T
L
m
F
m
)
(2)
\begin{array}{ll} \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} & \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|^2_F + \lambda_1 \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W})\\ &+ \lambda_3 tr(\mathbf{F}_0^{\mathrm{T}} \mathbf{L}_0 \mathbf{F}_0) +\sum_{m = 1}^g \lambda_4 tr(\mathbf{F}_m^{\mathrm{T}} \mathbf{L}_m \mathbf{F}_m) \tag{2} \end{array}
minU,V,U∥ΠΩ(Y−UV)∥F2+λ1∥V−WTX∥F2+λ2R(U,V,W)+λ3tr(F0TL0F0)+∑m=1gλ4tr(FmTLmFm)(2)
解释:
- 前三部分与 (1) 相同;
- 第四、五部分计算矩阵的轶, 轶越低越好.
- F 0 \mathbf{F}_0 F0 是对 X \mathbf{X} X 中所有实例预测导致的矩阵, 用于拟合 Y \mathbf{Y} Y. 以此实现 Global 优化.
-
S
0
1
\mathbf{S}_0 \mathbf{1}
S01 有两种可能:
a) 将 S 0 \mathbf{S}_0 S0 中对角线的元素保留,其它的位置为 0;
b) 将 S 0 \mathbf{S}_0 S0 的每 i i i 行的值相加, 放到 ( i , i ) (i, i) (i,i) 位置, 其它位置为 0. - 聚类: 原始
n
n
n = 1000, 聚类后
n
1
n_1
n1 = 100,
n
2
n_2
n2 = 300,
n
3
n_3
n3 = 600
获得 X 1 , X 2 , X 3 \mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3 X1,X2,X3.
F m \mathbf{F}_m Fm 是对各簇的拟合. 以此实现 Local 优化.