论文笔记：多标签学习——ACkEL算法_多标签学习最新论文-CSDN博客

本文链接：https://blog.csdn.net/Z__XY_/article/details/125523594

原文：
Wang, R., Kwong, S., Wang, X., & Jia, Y. (2021). Active k-labelsets ensemble for multi-label classification. Pattern Recognition, 109, 107583.

符号系统

符号	含义	说明
$\mathbb{L}=\{l_1,l_2,\cdots,l_M\}$	标签集合
$\mathbb{S}=\{(\mathbf{x}_i,\mathcal{Y}_i)\}_{i=1}^N$	数据集
$\mathbf{x}_i=(x_{i1},\cdots,x_{in})\in \mathcal{R}^n$	n维特征向量
$\mathcal{Y_i}$	标签集	样本 $\mathbf{x}_i对应的标签集合$
$\mathcal{h:R^n\rightarrow\mathbb {L}}$	学习的模型

LP：
将多标签问题转换成了单标签多分类问题。使用 $f_L:2^{\mathbb {L}}\rightarrow \mathbb{N}$ 将标签组合由自然数来反映，其中 $\mathbb{N=\{1,2,\cdots,2^{\mid L\mid}\}}$ （没有考虑空集），重新构建的数据集可以表示为： $\mathbb{S}^*=\{(\mathbf{x}_i,f_L(\mathcal{Y}_i))\}_{i=1}^N$ ，通过该数据集可以获得一个回归器 $h:\mathcal{R}^n\rightarrow \mathbb{C_L},\mathbb{C_L\subset N}$ ，最后通过映射函数的反函数获得标签： $f_L^{-1}:\mathbb{N}\rightarrow 2^{\mathbb {L}}$ 。
例如：当前有猫、狗、鼠三种标签，则映射关系可表示为：

猫	狗	鼠	N
✘	✘	✔	1
✘	✔	✘	2
✘	✔	✔	3
✔	✘	✘	4
✔	✘	✔	5
✔	✔	✘	6
✔	✔	✔	7

如果经过预测得到自然数5，则表明有猫和鼠两个标签。

LP的缺点：

自然数的规模随标签的种类呈指数型增长，随着 $\mid\mathbb{L}\mid$ 增大，计算复杂度也呈指数型增加。
该方法容易造成数据饥饿。例如，有猫、狗、鼠三种标签，在所有的样本中满足同时包含猫、狗、鼠三者的样本几乎没有，这样会导致类别不平衡，训练出来的模型的效果不理想。
（不知道我理解的正不正确：我认为这还是跟数据饥饿有关，比如我们当前的训练集有很多样本满足同时包含猫和鼠、或者猫和狗，如果在预测时，突然来了一个包含狗和鼠的样本，模型难以正确地预测标签）

Usually, $\mathbb{C_L}$ is a subset of $\mathbb{N}$ ; i.e., the transformed classes in $\mathbb{C_L}$ cannot cover all the natural numbers in $\mathbb{N}$ .Thus, the model will lose effectiveness when the testing sample is from a new class in $\mathbb{ N \setminus C_L}$ .

RA $k$ EL：
在原有的标签空间中随机产生大小为 $k$ 的标签子集，将一个大的LP 问题划分成一系列小的LP问题。划分后，标签子集可以表示为： $\mathcal{L_a}=\{l_{a1},\cdots,l_{ak}\}\subset \mathbb{L},a\in[1,m]$ ，其中 $m$ 表示将整个标签集合划分为大小为 $k$ 的子集个数。RAkEL把空集也认为是一种状态，所以全面考虑了标签的分布情况。划分标签后，根据各个子集标签的分布，需要在训练集中找到与该子集中的标签相关的样本，其中相关的标签用 $\mathcal{Y_{ia}}$ 表示。同时，用 $\mathcal{f_{L_a}}:2^\mathcal{L_a}\rightarrow \mathbb{N}_a$ 实现标签的映射，其反函数可以表示为： $\mathcal{f_{L_a}}^{-1}:\mathbb{N}_a\rightarrow 2^\mathcal{L_a}$ 。那么，现在各个标签子集所对应的训练数据集可表示为： $\mathbb{S}^*_a=\{(\mathbf x_i,\mathcal{f_{L_a}(Y_{ia})})\}_{i=1}^N，a\in[1,m]$ 。由 $m$ 个训练数据集可以训练出 $m$ 个回归器： $h_a:\mathcal{R}^n\rightarrow \mathbb{C_{L_a}},a\in[1,m]$ ，最后通过 $\mathcal{f_{L_a}}^{-1}$ 获得对应的标签。
对于一个预测样本 $\mathbf{\hat{x}}$ ，需要经过 $m$ 个模型的预测，得到 $m$ 个预测结果，最终的预测结果由投票决定：
$\mathbf{h(\hat x)}=\lbrace l_j\mid \frac{vote_j(\mathbf{\hat x})}{vote_j^{\max}}\gt 0.5,j\in[1,M]\rbrace$
其中， $vote_j(\mathbf{\hat x})=\sum\limits_{a=1}^m\mathbb{I}_{\mathcal{f_{L_a}}^{-1}(h_a(\mathbf{\hat x}))}(l_j)$ ， $vote_j^{\max}=\sum\limits_{a=1}^m\mathbb{I}_{\mathcal{L}_a}(l_j)$ 。
理解这个投票：咱们有一共m个模型，其中有 $vote_j^{\max}$ 个模型的训练数据的标签都包含 $l_j$ ，当预测到一个样本时，所有模型的预测结果中有 $vote_j(\mathbf{\hat x})$ 个模型预测出有 $l_j$ 标签，那么当 $vote_j(\mathbf{\hat x})$ 大于 $vote_j^{\max}$ 一半的时候，我们就认为该预测样本中是包含标签 $l_j$ 的。
通俗理解：在所有模型中，其中3个模型的训练样本都包含了猫这个标签，当我们预测一个样本的时候，其中有两个模型都预测该样本有猫，那么咱们就认为该样本有猫；相反，如果只有1个模型预测出有猫，其它两个模型都没预测出，那么我们就认为这个预测出有猫的模型出错了，选择相信另外两个模型的结果。

RAkEL的缺点：
随机采样的方式并不能保证有效性；确认标签子集的过程中，并没有考虑到样本的特征信息；在各个标签子集中仍可能存在类别失衡的问题；子集中的类别可分离性影响着模型的性能。

AC $k$ EL：
相比RA $k$ EL，它的创新点在于划分子集这一部分，考虑了划分后子集形成的密集的可分性和类别平衡问题。
类别可分性是线性分析的引申（理论看得似懂非懂）；通过标签的联合熵来平衡类别（没懂）。
基分类器就是 $S V M$ ，最后仍然是投票的方式决定标签是否存在。

总结
LP：考虑标签组合的所有形式，但复杂度高且容易数据饥饿；
RA $k$ EL：是将“大”的多标签问题化成“小”的多标签问题，在“小”的多标签问题中采用LP的方式解决问题；
AC $k$ EL：与RA $k$ EL思路一样，但在划分的过程中考虑了可分性和类别平衡等因素，使其效果更好。虽然套路懂了，但公式和推理还是超出了理解范围，准备二刷吧。
这篇已经在草稿箱放好久了，后面再补充内容吧。