论文笔记: 多标签学习 MSWL

最新推荐文章于 2024-11-11 17:20:15 发布

闵帆

最新推荐文章于 2024-11-11 17:20:15 发布

阅读量627

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记文章标签：学习算法机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/125438491

论文笔记专栏收录该内容

29 篇文章

订阅专栏

该论文提出了一种处理带有缺失标签的半监督多标签学习方法。通过结合全局和局部标签相关性，利用条件属性的辨别性，建立了一个稀疏性学习模型。损失函数旨在最小化预测标签与实际标签之间的差异，同时正则项控制模型的稀疏性。标签相关性学习包括全局和局部的流形正则化，分别优化标签的全局和局部相关性。算法最终目标是提高在弱标签数据上的学习性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要: 分享对论文的理解. 原文见 Zhang, J., Li, S., Jiang, M., & Tan, K. C. (2020). Learning from weakly labeled data based on manifold regularized sparse model. IEEE Transactions on Cybernetics, (pp. 1–14).

1. 论文贡献

解决半监督的带缺失值多标签学习问题. 其实有缺失标签的时候, 已经是半监督了. 这篇论文强调的是, 有些样本一个标签都不给.
全局与局部标签相关性.
稀疏性学习模型, 条件属性的辨别性.

2. 基本符号

符号	含义	说明
$\mathbf{X} \in \mathbb{R}^{n \times d}$	属性矩阵
$\mathbf{Y} \in \{-1, 1\}^{n \times q}$	标签矩阵
$\mathbf{C} \in \{0, 1\}^{n \times q}$	观测标签矩阵	$c_{ij} = 0$ 对应于 $y_{ij} = -1$ 或 $1$
$\mathbf{\Omega} = \{1, \dots, n\} \times \{1, \dots, c\}$	观测标签位置集合
$\mathbf{W} \in \mathbb{R}^{m \times l}$	系数矩阵	仍然是线性模型
$\mathbf{w}_i \in \mathbb{R}^m$	某一标签的系数向量
$\mathbf{C} \in \mathbb{R}^{l \times l}$	标签相关性矩阵	成对相关性, 不满足对称性

3. 算法

在这里插入图片描述

图 1. 算法总览

基本的优化目标:
$\min_{\mathbf{W}} V(\mathbf{X}, \mathbf{C}, \mathbf{W}) + \gamma \Omega(\mathbf{W}) + \mu Z(\mathbf{X}, \mathbf{C}, \mathbf{W}), \tag{1}$
其中 $V$ 是损失函数, $Z$ 根据标签相关性信息增强弱标签学习能力.

3.1 损失函数

$V(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \|\mathbf{XW} - \tilde{\mathbf{Y}}\|_2^2, \tag{2}$
其中 $\tilde{\mathbf{Y}}$ 是从 $\mathbf{C}$ 计算而来, 希望拟合 $\mathbf{Y}$ . 具体方法如下:
如果 $c_{ij} = 0$ , 表示缺值或负标签, 则
$\tilde{c}_{ij} = \sum_{p \in \mathcal{N}_j} c_{ip} b_{pj}, \tag{3}$
其中 $\mathcal{N}_j$ 表示标签 $j$ 的所有邻居标签, $b_{pj}$ 表示标签 $p$ 与标签 $j$ 的相关性. 可以记为 (这里有点小的问题, 丢失了邻居信息)
$\tilde{\mathbf{C}} = \mathbf{C}(\mathbf{B} + \mathbf{I}).$
$\tilde{y}_{ij} = \left\{\begin{array}{ll} 1, & \tilde{c}_{ij} \geq 1;\\ \tilde{c}_{ij}, & 0 < \tilde{c}_{ij} < 1;\\ 0, & \tilde{c}_{ij} \leq 0. \end{array}\right.\tag{4}$

3.2 正则项

使用 $\mathcal{l}_{2, 1}$ 范数控制稀疏性.
$\Omega(\mathbf{W}) = \|\mathbf{W}\|_{2, 1} = \sum_{i = 1}^n \sqrt{\sum_{j = 1}^t w_{ij}^2},$
即逐行取 2 范数再相加. 更多理解见这里.

3.3 标签相关性学习 (全局与局部的流形正则)

全局相关性
$\min_{\mathbf{b}_i} \|\mathbf{C}_{-i} \mathbf{b}_i - \mathbf{c}_i\|_2^2 + \lambda \|\mathbf{b}_i\|, \tag{6}$
其中 $\mathbf{C}_{-i}$ 是将第 $i$ 列标签全部置为 0 所获得的不完整矩阵. 该式的具体优化方法略, 反正我也没看懂.
局部相关性
$\min_{\mathbf{S}} \sum_{i = 1}^n \|\mathbf{x}_i - \sum_{j \in \mathcal{N}_i} s_{ji} \mathbf{x}_j\|^2, \tag{11}$
其中 $K$ 是邻居数量, $s_{ij}$ 是 $\mathbf{x}_i$ 与其邻居 $\mathbf{x}_j$ 的相似性.