Multi-class classification without multi-class labels (ICLR 2019)

最新推荐文章于 2024-09-07 08:15:27 发布

是雨玮a

最新推荐文章于 2024-09-07 08:15:27 发布

阅读量834

点赞数

分类专栏：不读论文文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_46102127/article/details/131397284

版权

不读论文专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Multi-class classification without multi-class labels (ICLR 2019)

摘要

这项工作提出了针对多分类的新策略，不需要具体的类别标签，取而代之是利用样本之间的两两相似度，这是一种弱化的标注方式。所提方法称作元分类学习，为两两相似度预测优化一个二分类器，并通过该过程学习一个多分类器作为子模块。我们阐述了这种方法，并给出了它的概率图形模型，以及推导出一个极其简单的损失函数指导基于神经网络的模型训练。接着。我们展示了相同的框架可以泛化到监督学习、无监督学习、跨任务学习以及半监督学习的设置上。我们在三种学习设置上和最先进的方法进行比较。展现出极具优越性的准确率，为没有多类别标签情况下进行多分类任务是一种可行的学习选择提供了证据。
在这里插入图片描述

元分类学习

在这里插入图片描述

用观察到的和未观察到的信息分析问题的一种自然方法是通过概率图形模型。如上图所示，用图形模型展示该问题。当两两相似度 $S$ 被观察到时，具体的类别标签 $Y$ 就是潜在的了。具体来说，我们定义 $\boldsymbol{X}=\{\textit{X}_1, \cdots, \textit{X}_n\}, Y=\{\textit{Y}_1, \cdots, \textit{Y}_n\}$ 以及 $S=\{\textit{S}_\textit{ij}\}_{1\le \textit{i}, \textit{j} \le n}$ 来分别表示样本集合，类别标签和两两相似度。并且有 $P(\textit{S}_\textit{ij}=1|\textit{Y}_\textit{i}, \textit{Y}_\textit{j})=1$ 当两个样本标签一致时，否则为0；相似的， $P(\textit{S}_\textit{ij}=0|\textit{Y}_\textit{i}, \textit{Y}_\textit{j})=1$ 当两个样本不一致时。参数为 $\theta$ 具备判别能力的分类器的输出是 $\textit{f}(\textit{x}_\textit{i}; \theta)=P(\textit{Y}_\textit{i}|\textit{x}_\textit{i}; \theta)$ ，其中 $\textit{f}(\textit{x}_\textit{i}; \theta)$ 输出一个类别分布。现在我们描述模型解释观察到的标签的似然（likeihood）(用类标签或两两标签)。
在这里插入图片描述
其中 $\boldsymbol{S}$ 是完全已知的，而 $\boldsymbol{Y}$ 是未知的。计算该似然需要通过计算 $\sum_{\boldsymbol{Y}}P(\boldsymbol{S}|\boldsymbol{Y})P(\boldsymbol{Y}|\boldsymbol{X}; \theta)$ 将 $\boldsymbol{Y}$ 边缘化，但这一步难以做到，其中成对项 $P(\boldsymbol{S}|\boldsymbol{Y})=\prod_{\textit{i}, \textit{j}}=P(\textit{S}_{\textit{i}, \textit{j}}|\textit{Y}_{\textit{i}}, \textit{Y}_{\textit{j}})$ 使得 $Y$ 相互依赖，无法有效分解因式。计算似然如下：
在这里插入图片描述

接着定义函数 $g$ 表示具有相同类别标签的概率：

改写损失函数：

在此， $\textit{f}$ 代表多分类器，而 $\textit{g}$ 代表二分类器。换言之，通过以上简单的推导，就将多分分类器用二分类器包装。因为在 $\textit{g}$ 中没有可学习的参数，因此元指标指导的优化都是在 $\textit{f}$ 中进行。为了最小化所提损失，当两个样本类别一致时，模型输出一种峰值只出现在同一输出节点上的急剧峰值分布；不一致时，两个分布之间要尽可能的减少重叠部分。在后一种情景下，两个样本被推向不同的类别。 $\textit{f}$ 输出分布的这两个性质都是使用类标签和多类交叉熵学习的分类器的典型特征。这些属性也直观地说明了为什么最小化 $\textit{L}_{meta}$ 可以帮助学习类似于多类分类器的输出。
以上所提损失称为元分类似然（Meta Classification Likelihood, MLC）

学习模式

MCL中使用的监督是两两标签 $\textit{S}$ 。由于它的形式比类标签弱，我们可以灵活地在监督学习、跨任务迁移学习或半监督学习的设置中收集该标签。收集方法同时也决定了学习范式。在前两种学习模式中，其他方法也使用了类似的成对约束；我们的新颖性是我们推导出新的学习目标MCL，它可以取代其他的学习目标。在半监督学习场景中，提出一种新的学习方法Pseudo-MCL。详细说明如下。
在这里插入图片描述

监督学习

监督学习的两两标签可以直接从类别标签转化得到。

无监督学习

两两标记可以来自几个自然线索，如空间和时间的接近。例如，一幅图像中的图像块由于空间上的紧密性可以是相似的，而视频在短时间内的帧通常具有相似的内容。此外，有用的两两信息可以在社交网络的边缘或学术引用网络中找到。以上都是本工作的潜在应用。
另一个在目标领域无监督的策略是通过迁移学习收集成对的标签。Hsu等人(2018)提出了一种方法，其中相似性预测网络(SPN)可以从标记的辅助数据集学习。然后对未标记的目标数据集应用SPN预测 $\textit{S}$ (属于同一类的概率)。在最后一步中，预测的 $\textit{S}$ 被送入一个网络(在这种情况下，通过基于Kullback-Leibler散度的对比损失进行优化)，以发现未标记目标数据集中的类别。图3b说明了上面的过程。请注意，辅助数据集和目标数据集之间的类可能有重叠(跨域转移)或没有重叠(跨任务转移)(Hsu等人，2018)。在这两种情况下，预测的两两相似度是有噪声的(特别是在后一种情况下);因此，迁移学习策略为学习分类器创造了一个具有挑战性的场景。它的难度使得它成为一个很好的基准来评估我们的方法的鲁棒性，并在我们的实验中被使用。

半监督学习

在半监督学习中，我们提出了一种新的获取 $\textit{S}$ 的策略。该方法在典型的半监督学习设置下,这需要一个公共数据集 $\textit{D}$ 用于监督学习和丢弃大部分数据集的标签。 $\textit{D}$ 中标注和未标注的部分分别用 $\textit{D}_L=(\textit{X}_L,\textit{Y}_L), \textit{D}_{UL}=\textit{X}_{UL}$ 表示。主要想法就是制造一个伪相似度 $\textit{S}_{L+UL}$ 来进行元分类以0.5的概率对预测的 $\hat{\textit{S}}_{L+UL}$ 进行二进制，我们称这个方法为Pseudo-MCL，我们注意到，有趣的是，这里 $g$ 不是静态的，因为它会随着 $f$ 的改进而迭代改进。以不同方式增强的图像自然属于同一类，从而提供了ground-truth相似性。通过对两个二值化相似点进行逻辑或操作，可以很容易地将这两种方法的相似性组合为 $\textit{S}_{L+UL}$ 。学习目标是多类交叉熵和Pseudo-MCLl的总和，因此输出节点和类之间的映射由学习的监督部分自动决定。

emmmmm

这篇论文的idea和原作者之前的两篇论文有多大区别啊，一个两两相似度反复用。监督学习下的元分类器和16年将多标签弱化为两两相似度进行聚类都没啥区别，不就是之前是用KL散度衡量两个输出分布之间的距离，来逼近所给的pairwise labels；这边直接在输出向量上计算内积，同样逼近所给的pairwise labels。
原作者是不是想用两两相似度在所有领域都用一遍，每次换个名称，换个度量方式（JS散度，MSE，EMD等）然后开始套不同方式的设置。18年是用在了跨域迁移和跨任务迁移，19年这篇用在了监督学习，无监督学习，半监督学习。这篇中的无监督学习还是明晃晃的引用自己的16年的跨任务迁移的解决方法。
这个也能发ICLR啊，还是三篇！！！！！！！！！！