论文笔记: 多标签学习 LSML

闵帆

已于 2022-06-23 09:20:29 修改

阅读量984

点赞数 2

分类专栏：论文笔记文章标签：学习算法机器学习

于 2022-06-22 21:39:22 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/125416210

版权

论文笔记专栏收录该内容

29 篇文章 3 订阅

订阅专栏

摘要: 分享对论文的理解. 原文见 Huang, J., Qin, F., Zheng, X., Cheng, Z.-K., Yuan, Z.-X., Zhang, W.-G., & Huang, Q.-M. (2019). Improving multi-label classification with missing labels by learning label-specific features. Information Sciences, 492, 124–146.

1. 论文贡献

在 LIFT 的基础上, 考虑了标签相关性 (张星移正在担忧的事情). 大胆地使用了一个标签相关性矩阵.
However, label correlation among class labels is neglected when selecting the features for each class label independently.
考虑了缺失标签. 但我到现在都没弄清楚他是怎么考虑的.

2. 基本符号

符号	含义	说明
$\mathbf{X} \in \mathbb{R}^{n \times m}$	属性矩阵
$\mathbf{Y} \in \{0, 1\}^{n \times l}$	标签矩阵
$\mathbf{W} \in \mathbb{R}^{m \times l}$	系数矩阵	仍然是线性模型
$\mathbf{w}_i \in \mathbb{R}^m$	某一标签的系数向量
$\mathbf{C} \in \mathbb{R}^{l \times l}$	标签相关性矩阵	成对相关性, 不满足对称性

$y_{ij} = 0$ 表示第 $i$ 个对象没有第 $j$ 个标签, 或者标签缺失. 这在实际应用中很常见, 标注者很多时候只告诉你有哪些, 而不会说没有哪些标签.

3. 算法

基本优化目标为:
$\min_{\mathbf{W}} \frac{1}{2} \|\mathbf{XW} - \mathbf{Y}\| + \lambda_3 \|\mathbf{W}\|_1 \tag{1}$

使用 $\lambda_3$ 而不是 $\lambda$ , 是为了与后面的式子保持一致;
用 1-范数做正则项, 确实可以控制 $\mathbf{W}$ 的系数, 这个与 PML-NI 的思路一样, 但后者本意是用 0-范数.
这里并没有使用 LIFT 为每个标签构建新属性集合的方式, 称其为 “label-specific features”, 感觉草率了些.

考虑标签相关性矩阵 $\mathbf{C}$ 的优化目标为:
$\min_{\mathbf{W}, \mathbf{C}} \frac{1}{2} \|\mathbf{XW} - \mathbf{YC}\|_F^2 + \frac{\lambda_1}{2}\|\mathbf{YC} - \mathbf{Y}\|_F^2 + \lambda_2 \|\mathbf{C}\|_1 + \lambda_3 \|\mathbf{W}\|_1 \tag{2}$

这里的 $\mathbf{C}$ 也是优化算法需要求的矩阵, 并非从其它方式计算而来.
难道作者认为 $\mathbf{YC}$ 就是恢复后的标签矩阵? 这样的话, 预测的时候就只需要使用 $\mathbf{xW}$ 而不考虑 $\mathbf{C}$ 了. 需要进一步读论文印证.

举两个栗子吧
$\mathbf{Y} = \left[\begin{matrix}0 & 1 & 1\\ 1 & 0 & 0\\ 1 & 0 & 1\\ 1 & 1 & 0\end{matrix}\right]$
单位矩阵表示恒等变换
$\mathbf{I} = \left[\begin{matrix}1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1\end{matrix}\right]$
因此
$\mathbf{YI} = \mathbf{Y}$
我心目中的 $\mathbf{C}$ 长这个样子:
$\mathbf{C} = \left[\begin{matrix}0.9 & 0.1 & 0.2\\ 0.1 & 0.8 & 0.3\\ 0.1 & 0.2 & 0.9\end{matrix}\right]$
即对角线上的值接近 1 (标签与自己最相关), 而其它值比较小.
$\mathbf{YC} = \left[\begin{matrix}0.2 & 1 & 1.2\\ 0.9 & 0.1 & 0.2\\ 1 & 0.3 & 0.4\\ 1 & 0.9 & 0.5\end{matrix}\right]$
它与 $\mathbf{Y}$ 有一定差距, 但并不大.

进一步考虑: 如果两个标签相关性大, 那么产生它们的权值向量距离就应该小. 由此获得优化目标:
$\min_{\mathbf{W}, \mathbf{C}} \frac{1}{2} \|\mathbf{XW} - \mathbf{YC}\|_F^2 + \frac{\lambda_1}{2}\|\mathbf{YC} - \mathbf{Y}\|_F^2 + \lambda_2 \|\mathbf{C}\|_1 + \lambda_3 \|\mathbf{W}\|_1 + \lambda_4 \sum_{1 \leq i, j \leq l} c_{ij}\|\mathbf{w}_i - \mathbf{w}_j\|\tag{3}$

最后一项的双竖线在这里表示欧氏距离.
为使得最后一项小, 当 $c_{ij}$ 大的时候, $\|\mathbf{w}_i - \mathbf{w}_j\|$ 就应该小.
为了优化, 最后一项会变为
$\lambda_4 tr(\mathbf{WLW}^{\mathrm{T}})$
其中, $\mathbf{L}$ 是 $\mathbf{C}$ 的图 Laplacian 矩阵.

4. 小结

想要体现什么因素, 就加一个正则项. 有合理解释, 以及更好效果就行.
但从我们的实验看来, 这个算法的效果很一般. 当然, 效果与数据集、参数设置这些都很有关.

闵帆

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
论文笔记: 多标签学习 LSML

摘要: 分享对论文的理解. 原文见 Huang, J., Qin, F., Zheng, X., Cheng, Z.-K., Yuan, Z.-X., Zhang, W.-G., & Huang, Q.-M. (2019). Improving multi-label classification with missing labels by learning label-specific features. Information Sciences, 492, 124--146.............
复制链接

扫一扫

专栏目录