论文笔记: 多标签学习 GLOCAL

闵帆

已于 2022-06-22 11:08:59 修改

阅读量1.1k

点赞数

分类专栏：论文笔记文章标签：算法学习聚类

于 2022-02-19 17:28:40 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/123021105

版权

论文笔记专栏收录该内容

29 篇文章 3 订阅

订阅专栏

该论文提出了一种结合矩阵分解和线性模型的方法来处理多标签学习问题，旨在捕捉标签之间的相关性。通过矩阵分解，作者解决了标签矩阵的缺失值问题，并引入了隐含标签的概念。优化目标包括拟合分解后的矩阵和正则化项，同时考虑全局和局部优化。这种方法支持对新实例的标签预测，且能处理标签的缺失情况。

摘要由CSDN通过智能技术生成

摘要: 分享对论文的理解. 原文见 Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.

1. 论文贡献

将标签矩阵进行矩阵分解, 所获得的子空间就没有缺失值了.
子空间能够表达标签相关性.
聚类后进行局部拟合.

2. 基本符号

符号	维度	含义
$n$		对象个数
$l$		标签个数
$k$		隐含标签个数
$\mathbf{X}$	$\times n$	数据矩阵
$\mathbf{Y}$	$\times n$	标签矩阵
$\mathbf{U}$	$\times k$	从隐含标签向真实标签的映射
$\mathbf{V}$	$\times n$	从对象向隐含标签的映射
$\mathbf{W}$	$\times k$	权值矩阵

3. 基本思想

3.1 线性模型 (复习)

$\mathbf{W}^\mathrm{T} \times \mathrm{X} \approx \mathbf{Y}$ , 这时 $\mathbf{W}$ 为 $\times l$
线性模型的优点: 直截了当.
缺点: 线性太简单, 相当于 $\mathbf{W}$ 的每一列服务于一个标签, 不能体现标签相关性.

3.2 矩阵分解模型

$\mathbf{U} \times \mathbf{V} \approx \mathbf{Y}$
即将 $\mathbf{Y}$ 分解为两个矩阵. 但这种模型只能用于矩阵填充, 如缺失标签的补齐, 不能直接用于预测.

3.3 矩阵分解之后的线性模型

$\mathbf{W}^\mathrm{T} \times \mathbf{X} \approx \mathbf{V}$
即用拟合分解后的矩阵 $\mathbf{V}$ .
优势：

隐含标签矩阵没有缺失值;
隐含标签可以比实际标签少;
支持预测: $\mathbf{U} \mathbf{W}^\mathrm{T} \mathbf{x}$ : 就是对实例 $\mathbf{x}$ 的标签预测，结果是 $\times 1$ 的. 这里的 $\mathbf{x}$ 既可以是 $\mathbf{X}$ 的一个实例, 也可以是新的实例.

4. 优化目标

$\min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|_F^2 + \lambda \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W}) \tag{1}$
解释:

$\Pi_{\Omega}$ 应对缺失标签, 不能对相应的拟合值进行惩罚. 矩阵分解通常都采用这种方案;
第一部分表示 $\mathbf{UV}$ 拟合 $\mathbf{Y}$ 的质量;
第二部分表示 $\mathbf{W}^\mathrm{T} \times \mathbf{W}$ 拟合 $\mathbf{V}$ 的质量;
第三部分表示对几个参数矩阵的正则化. 可以分别对它们正则化.

$\begin{array}{ll} \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} & \|\Pi_{\Omega}(\mathbf{Y} - \mathbf{U}\mathbf{V})\|^2_F + \lambda_1 \|\mathbf{V} - \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W})\\ &+ \lambda_3 tr(\mathbf{F}_0^{\mathrm{T}} \mathbf{L}_0 \mathbf{F}_0) +\sum_{m = 1}^g \lambda_4 tr(\mathbf{F}_m^{\mathrm{T}} \mathbf{L}_m \mathbf{F}_m) \tag{2} \end{array}$
解释:

前三部分与 (1) 相同;
第四、五部分计算矩阵的轶, 轶越低越好.
$\mathbf{F}_0$ 是对 $\mathbf{X}$ 中所有实例预测导致的矩阵, 用于拟合 $\mathbf{Y}$ . 以此实现 Global 优化.
$\mathbf{S}_0 \mathbf{1}$ 有两种可能:
a) 将 $\mathbf{S}_0$ 中对角线的元素保留，其它的位置为 0;
b) 将 $\mathbf{S}_0$ 的每 $i$ 行的值相加, 放到 $(i, i)$ 位置, 其它位置为 0.
聚类: 原始 $n$ = 1000, 聚类后 $n_1$ = 100, $n_2$ = 300, $n_3$ = 600
获得 $\mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3$ .
$\mathbf{F}_m$ 是对各簇的拟合. 以此实现 Local 优化.