多标签学习之数学语言版_arg min∥y xw∥2 + λ∥w∥1, 1维向量-CSDN博客

本文链接：https://blog.csdn.net/minfanphd/article/details/122313289

数学语言是论文最强有力展现.

1. 数据模型

令属性矩阵为 $\mathbf{X} = (\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N)^{\mathrm{T}} = (x_{ij})_{N \times M}$ , 其中 $N$ 和 $M$ 分别为对象数与属性数. $\mathbf{Y} = (\mathbf{y}_1, \mathbf{y}_2, \dots, \mathbf{y}_N)^{\mathrm{T}} = (y_{ij})_{N \times L}$ , 其中 $L$ 为标签数. 如果 $y_{ij} \in \{0, 1\}$ , 那么 $y_{ij} = 1$ 表示 $\mathbf{x}_i$ 具有标签 $j$ , $y_{ij} = 0$ 表示不具有. 如果 $y_{ij} \in \{-1, 1\}$ , 那么 $y_{ij} = 1$ 表示 $\mathbf{x}_i$ 具有标签 $j$ , $y_{ij} = -1$ 表示不具有. $y_{ij}$ 的值域根据算法的需求选择.

2. 线性模型

线性模型比较简单, 速度也快.

2.1 方案 1: 原始的线性模型

$\argmin_{\mathbf{W} \in \mathbb{R}^{M \times L}} \| \mathbf{X} \mathbf{W} - \mathbf{Y}\|_2^2 \tag{1}$
本方案使用一个系数矩阵 $\mathbf{W} = (\mathbf{w}_1, \mathbf{w}_2, \dots, \mathbf{w}_L) = (w_{ij})_{M \times L}$ 进行拟合. 注意 $\mathbf{w}_i$ 为列向量, 有如下特点:

使用了简单的线性模型;
第 $i$ 个标签仅与 $\mathbf{w}_i$ 相关, 没有考虑标签相关性.
可以改变损失函数, 也可以增加正则项.

2.2 方案 2: 带共享矩阵的线性模型

$\argmin_{\mathbf{W}_0 \in \mathbb{R}^{M \times M'}, \mathbf{W} \in \mathbb{R}^{M' \times L}} \| \mathbf{X} \mathbf{W}_0 \mathbf{W} - \mathbf{Y}\|_2^2 \tag{2}$
本方案在 (1) 式基础上增加了共享矩阵 $\mathbf{W}_0$ , 它的作用是将原始 $M$ 维空间数据映射到 $M^{'}$ 维, 有如下特点:

通常要求 $\ll M$ , 相当于降维的作用.
$M^{'}$ 维空间被称为共享子空间, 即它被不同的标签共享, 以达到提取标签相关性的目的. 不得不说, 这和我们深度学习的方案想法一致啊! 我们的方案就不更多剧透啦, 哈哈.
这个方案我从 [Sheng-Jun Huang, Songcan Chen, Zhi-Hua Zhou: Multi-Label Active Learning: Query Type Matters] 看到的, 暂时还不清楚是否原始出处.

3. 矩阵分解

3.1 问题的提出

在多标签应用中, 训练数据有很多的缺失标签, 即 $y_{ij} \in {0, 1, ?}$ (其中问号表示缺失) 或 $y_{ij} \in {-1, 0, 1}$ (其中 0 表示缺失).

3.2 基于矩阵分解的标签填充

令 $\mathbf{U} \in \mathbb{R}^{N \times K}$ 和 $\mathbf{V} \in \mathbb{R}^{L \times K}$ 为两个子空间, 希望以它们拟合 $\mathbf{Y}$ 中非零部分,
$\argmin_{\mathbf{U}, \mathbf{V}} \sum_{y_{ij \neq 0}} (\mathbf{u}_i \mathbf{v}_j^{\mathrm{T}} - y_{ij})^2 \tag{3}$
同上, 可以加上正则项.

未完待续