Multi Label Classification with Missing Labels(MLML)的几种loss设计

taoqick

于 2023-10-05 16:49:41 发布

阅读量660

点赞数

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/taoqick/article/details/133579554

版权

多标签学习这个方向问题比较多，可以参考多标签学习的新趋势（2021 Survey TPAMI）和部分标签学习和缺失标签学习到底什么异同？这两篇偏综述性质的解释。本文重点解释下面几个重点问题：

Multi Label Classification with Missing Labels(MLML)和Partial Multi-Label Learning（PML）的区别

MLML重点在Missing Labels，一张图标注员一般只打标少量实体，大量的实体miss掉了，产生了大量的False Negative cases。
PML重点在很多信息不明确，很难标。例如下面图，诸如Tree、Lavender这些标签相对是比较简单的。但是有些标签到底有没有，是比较难以确定的，对于某些标注者，可能出现：“这张图片看起来是在法国拍的，好像也可能是意大利？”，这种情况称之为Ambiguous。PML希望把所有的ambiguous都标出来，所以PML选择的是让标注者提供所有可能的标签，当然加了一个较强的假设：所有的标签都应该被包含在候选标签集中。

MLML的loss设计

刚提到MLML的问题在于大量正例标签miss掉了，有不少False Positive，从loss推导角度来分析下这个问题

Preliminary

MLML问题一般理解为针对每一个label进行one-vs.-rest的二分类：

对于多分类，假设存在n类，那么对于每个样本经过神经网络会出n个logits，这n个logits过softmax得到和为1的值再过NLL的loss，就是CrossEntropy，详细可以参考信息熵条件熵交叉熵联合熵相对熵 KL散度 SCE MAE 互信息（信息增益）里的推导，所以 $CE(P,Q)=-\sum_{i \in [0,n-1]}p_ilogq_i$ ，一般 $p_i$ 是label， $q_i$ 是经过softmax后的结果。
对于二分类，对于每个样本经过神经网络可以只出一个logit，那么这个logit只过sigmoid得到p就可以了，都没softmax啥事。但算CE loss需要另外一个logit归一化的结果，也就是1-p，也需要另外一个label就是1-y。所以到二分类里 $CE(P,Q)=-\sum_{i \in [0,1]}p_ilogq_i=-ylogp-(1-y)log(1-p)$ ，y是label，p是经过sigmoid后的结果。

在Simple and Robust Loss Design for Multi-Label Learning with Missing Labels一文中，Loss被一般化地定义为下面表达式，值得注意的是K是表示有K个二分类，而不是K=2， $y_i$ 的取值是0或者1
$-\sum_{i=1}^K(y_iL_i^++(1-y_i)L_i^-)$
如果是BCE就是下面表达式， $p_i$ 表示的是第i个二分类经过sigmoid后只出了一个值 $p_i=\sigma(x_i)=\frac{1}{1+e^{-x_i}}$ ，其中 $x_i$ 就是经过神经网络后第i个二分类只出了一个值
$-\sum_{i=1}^K(y_iL_i^++(1-y_i)L_i^-) \\ L_i^+=logp_i \\ L_i^-=log(1-p_i)$
有了这个表达式可以推导一下导数结果，因为 $\sigma^{'}(x_i)=\sigma(x_i)(1-\sigma(x_i))=p_i*(1-p_i)$ ：
$\frac{\partial L_i^-}{\partial x_i} = \frac{1}{p_i-1}*p_i*(1-p_i)=-p_i$
所以Simple and Robust Loss Design for Multi-Label Learning with Missing Labels一文中Fig 3对应的BCE是一条直线，注意横轴是p，纵轴是 $-\frac{\partial L_i^-}{\partial x_i}$
在这里插入图片描述

如果是Focal Loss就是下面表达式， $\gamma$ is a focus parameter, and $\alpha_+$ and $\alpha_-$ are utilized to balance positives and negative
$-\sum_{i=1}^K(y_iL_i^++(1-y_i)L_i^-) \\ L_i^+=\alpha_+(1-p_i)^\gamma logp_i \\ L_i^-=\alpha_-p_i^\gamma log(1-p_i)$

ASL(Asymmetric Loss For Multi-Label Classification)

ASL Loss是一种对Focal Loss的修正，其中 $p_m=max(p-m,0)$ , The
probability margin m ≥ 0 is a tunable hyper-parameter。 The ASL loss reduces the weight of easy negatives via using $\gamma+<\gamma-$ , and discards negatives with low predicted probability via
the m shifted probability
$-\sum_{i=1}^K(y_iL_i^++(1-y_i)L_i^-) \\ L_i^+=(1-p_m)^{\gamma+} logp_m \\ L_i^-=p_m^{\gamma-} log(1-p_m)$