论文笔记：多标签学习——BP-MLL算法

颜妮儿

已于 2022-06-29 15:49:04 修改

阅读量1.3k

点赞数 1

分类专栏：论文笔记文章标签：算法学习机器学习

于 2022-06-29 11:57:17 首次发布

本文链接：https://blog.csdn.net/Z__XY_/article/details/125505446

版权

论文笔记专栏收录该内容

5 篇文章

订阅专栏

原文
Zhang, M.-L., & Zhou, Z.-H. (2006). Multi-label neural networks with applications to functional genomics and text categorization. IEEE Transactions on Knowledge and Data Engineering, 18, 1338–1351.

符号系统

符号	含义	说明
$\mathcal{X}=\mathbb{R}^d$	$d$ 维特征空间
$\mathcal{Y}=\{1,2.\cdots,Q\}$	标签空间大小为 $Q$
$f:\mathcal{X\times Y}\rightarrow \mathbb R$	回归器	为每个标签预测一个概率
$h:\mathcal{X\rightarrow 2^Y}$	分类器	通过设置阈值对标签进行分类

学习过程
将训练数据输入神经网络，神经网络通过损失函数进行训练得到参数，输出的数据是神经网络经过计算之后预测每个标签在该输入数据中出现的可能性，最后通过与设置的阈值进行比较，得出结果。
如下图是作者给出的含有一层隐藏层的BP-MLL结构：
只有一层隐藏层的BP-MLL结构
其中， $a_i(i\in[1,d])$ 是输入的数据； $a_0,b_0$ 为偏置数据，初始值均为1，设置偏置可以提高激活函数的灵活性（控制其左右移动），以提高模型的拟合性； $\mathnormal {V,W}$ 是各层之间设置的权重值； $c_i(i\in [1,Q])$ 是模型针对每个标签计算的概率。

关键——损失函数的设计
全局的损失函数表示为：
$E=\sum\limits_{i=1}^mE_i \tag{1}$
其中 $E_i$ 是每个样本的平均损失值。
在多标签问题中，针对每个样本使用普通的损失和函数，则表示为：
$E_i=\sum\limits_{j=1}^Q(c_j^i-d_j^i)^2 \tag{2}$
在式（2）中的 $c_j^i$ 表示第 $j$ 个样本经过神经网络计算后，第 $i$ 标签的可能性； $d_j^i$ 表示实际标签值，若该标签属于该样本已有的标签集，则 $d_j^i=+1$ ，否则 $d_j^i=-1$ 。通过式（2），我们发现，当预测值越接近真时值时，损失越小，说明该方法是可行的，但也不难发现，该损失函数并没有考虑标签的相关性。
作者改进后的损失函数：
$E=\sum\limits_{i=1}^mE_i=\sum\limits_{i=1}^m\frac{1}{|Y_i||\overline{Y_i}|}\sum\limits_{(k,l)\in Y_i\times \overline{Y_i}}\exp ^{(-(c_k^i-c_l^i))}\tag{3}$
其中， $k\in Y_i,l\in \overline Y_i$ ， $\overline Y_i$ 是 $Y_i$ 的补集，表示第 $i$ 个样本中所有不被包含的标签集合。当 $c_k^i-c_l^i$ 越大时，对其惩罚就越小，意味着 $c_k^i$ 越应该接近1， $c_l^i$ 越接近0。乘以 $\frac{1}{|Y_i||\overline{Y_i}|}$ 是因为 $Y_i$ 与 $\overline Y_i$ 笛卡尔积后一共有 $|Y_i||\overline{Y_i}|$ 个元素，除以它获得当前样本的损失均值。观察式（3），我们不难发现它不仅关注能否正确给样本打标签还期望正确标签与样本中不含有标签的差值更大。所以与式（2）相比，式（3）还注重了 $Y_i$ 与 $\overline Y_i$ 的差异性。