End-to-end novel visual categories learning via auxiliary self-supervision (Neural Networks 2021)

最新推荐文章于 2024-08-24 19:16:15 发布

是雨玮a

最新推荐文章于 2024-08-24 19:16:15 发布

阅读量133

点赞数

分类专栏：不读论文文章标签：聚类机器学习算法深度学习人工智能

本文链接：https://blog.csdn.net/qq_46102127/article/details/131494609

版权

不读论文专栏收录该内容

10 篇文章 0 订阅

订阅专栏

End-to-end novel visual categories learning via auxiliary self-supervision (Neural Networks 2021)

摘要

半监督学习在很大程度上缓解了深度学习对大量标注的强烈需求。然而，大多数方法都采用了一个共同的假设，即在同一类未标记的数据中总是有标记的数据，这是不切实际的，而且对于现实世界的应用程序是受限制的。在本研究工作中，我们关注的是当未标记数据和标记数据的类别彼此分离时的半监督学习。主要的挑战是，当标签数据彼此独立且不属于同一类别时，如何有效地利用标签数据和非标签数据中的知识。以前最先进的方法已经提出构造成对相似伪标签作为监测信号。然而，这些方法普遍存在两个问题:(1)以往的方法都是由多个训练阶段组成的，这使得很难以端到端方式训练模型。(2)对两两相似度伪标签质量的强烈依赖性限制了伪标签的性能，因为伪标签容易受到噪声和偏差的影响。因此，我们提出在模型训练中利用自我监督作为辅助任务，使有标记的数据和无标记的数据共享同一组替代标签，使整体监督信号具有较强的正则化。这样一来，该算法中的所有模块都可以同时进行训练，从而实现端到端学习，提高了算法的学习能力。此外，我们提出利用特征空间中的局部结构信息来构造成对伪标签，因为局部属性对噪声的鲁棒性更强。

策略

问题定义

假设给定一个图像数据集 $X=\{x_1,x_2,\cdots,x_N\}$ ，只知道部分对应的类别，记作 $\{X_l, Y_l\}, Y_l=\{y_1,y_2,\cdots,y_l\}$ ，其中 $Y_l$ 中类别的数量记作 $c_l$ 。对于 $X$ 中剩余的数据，则不知道对应的类别，记作 ${X_u, Y_u\}$ ，其中 $Y_u$ 中类别的数量记作 $c_u$ ，假设已知 $c_u$ 已知。并且 $Y_u \cap Y_l = \varnothing$ ， $X_u$ 中的标签和 $X_l$ 中的标签是相互分开的。目标就是根据给定的 ${X_l, Y_l\}$ 尽可能正确的将 $X_u$ 中的数据聚集到 $c_u$ 个类别上。

所提算法

在这里插入图片描述
在我们的算法中，我们将预测应用在图片上旋转变化的角度作为辅助自监督任务。三个不同的线性分类器被用来将数据点从特征空间映射到三个目标空间，例如两两相似度伪标签空间，分类标签空间以及自监督标签空间，这对应这我们算法中的三个模块。

两两相似度学习

没有进行任何的预训练或者微调，我们的算法直接从随机初始化的CNN网络开始训练。 $X$ 中的数据被传入网络，其线性层之后对应的特征向量 $\phi_i$ 对应每一个 $X_u$ 中的 $x_i$ 被收集用于计算两两相似度。因为 $X_u$ 中没有标签信息，学习的特征空间容易受到噪声的影响。因此我们建议在特征空间中利用鲁棒的局部数据结构信息来减轻这种影响。我们使用对称SNE中提出的条件概率来表示 $\phi_i$ 和 $\phi_j$ 之间的相似度 $s_{ij}$ 。
在这里插入图片描述
其中， $p_{i|j}$ 表示 $\phi_i$ 被选作 $\phi_j$ 邻居的条件概率，由以 $\phi_j$ 为中心的高斯分布计算得出。如果两个特征向量之间的距离不够近，那么概率将是无穷小的。温度系数T控制被考虑的邻居的数量。
在计算相似度 $s_{ij}$ 后，就可以据此计算二元交叉熵损失，以增强网络对具有相似特征向量的图像数据给出相似预测。
在这里插入图片描述
其中 $\hat{\boldsymbol{y}}=softmax(f_{cl}(\phi_i)) \in R^{C_u}$ ，表示线性层 $f_{c1}$ 加一个softmax函数针对向量 $\phi_i$ 的输出。在我们提出的算法中，我们希望每一批次数据更新一次网络。因此，对一批图像数据计算 $L_{BCE}$ , $m$ 为一批未标记数据的个数。类似地， $s_{ij}$ 的计算是针对每一批次数据，而不是整个数据集。如果认为两个图像数据 $x_i$ 和 $x_j$ 相似，即 $s_{ij}$ 大于阈值 $\tau$ ，则 $A_{ij} = 1$ 。在此，我们用 $\hat{\boldsymbol{y}}_i$ 和 $\hat{\boldsymbol{y}}_j$ 之间的内积表示对图像数据 $x_i$ 和 $x_j$ 网络预测之间的相似度。

混合标签分类

除了针对无标签数据的两两i相似度学习之外，分类的区分性特征学习是必不可少的，因为 $X_l$ 知道标签信息。首先计算有标签数据的网络预测结果和真实标签之间的交叉熵损失 $\mathcal{L}_l$ 。而针对无标签数据集上的交叉熵损失 $\mathcal{L}_u$ ，通过在之前两两相似度学习中的网络模型生成的预测 $f_{c 1}\left(\phi_i\right)$ 可以用来推理伪标签。因此，计算网络预测与 $X_l$ 的真标签和 $X_u$ 的伪标签之间的交叉熵损失，另一个线性层被添加到网络上用于将特征向量映射到 $c_l + c_u$ 维的标签空间上。
在这里插入图片描述
$\widehat{\mathbf{y}_i}=\operatorname{softmax}\left(f_{c 2}\left(\phi_i\right)\right) \in R^{c_l+c_u}$ 是线性层 $f_{c 2}$ 加一个softmax函数对特征向量的输出。 $y_i$ 表示真实标签， $\lambda_{p l}$ 表示对伪标签的权重因子， $p_i$ 表示无标签数据的伪标签，由以下公式定义：
在这里插入图片描述
伪标签 $p_i$ 由第一线性层 $f_{c1}$ 加 $c_l$ 的输出推断出来，作为伪标签混合真实标签计算损失，同时还加入了一致性约束来增强稳定性和鲁棒性。

自监督学习

两两相似度学习基于学习的特征空间建立了未标记数据之间的两两关系，主要受 $X_l$ 的监督。但是仅依赖由标签类别的数据提取的特征很有可能存在偏差，它对无标签数据的泛化能力将大打折扣。为了缓解该问题，我们建议提供除了标签信息意外的额外监督信息。在Gidaris的工作中，网络被训练用来预测应用在图像数据的旋转几何变换，扮演自监督的角色。我们在自身所提算法中联合基于旋转的自监督信息，通过迫使网络去同时区分图像类别和旋转变换。
每张图片 $x_i \in X$ 被旋转 $KaTeX parse error: Expected 'EOF', got '}' at position 44: …ree,270\degree,}̲$ ，并且旋转后的图像被传入相同的网络去获取特征向量。第三个线性层 $f_{c3}$ 被添加用于将旋转图片的特征向量映射到4维的代理标签空间。旋转损失通过i计算交叉熵获得：
在这里插入图片描述
总损失计算如下：

其中 $\lambda_{Rot}$ 控制辅助自我监督信息与显式标签信息的相对重要性 $\beta$ 决定一致性损失的权重。 $L_{MSE}$ 的形式决定了由于对概率分布的幂运算，损失的大小将是非常小的，这与其他三种损失项不同。此外，期望理想模型对输入数据 $x_i$ 和其随机增广的对应对象 $\hat{x}_i$ 给出相同的预测，使 $L_{MSE}$ 接近于零。因此， $\beta$ 通常设置为一个较大的值，以平衡整体损失。本文算法的伪代码在算法1中总结。
在这里插入图片描述

emmm

第一、三个模块我觉得合理，第一个模块通过统计学的一些方式计算相似度给出两两相似度的伪标签的方式没啥问题，因为通过之前的一些工作可以看出通过预训练的神经网络在无标签数据集直接给出伪标签的效果没有通过数值分析以及一些统计学的方法得出的伪标签的性能好。

第三个模块则考虑到伪标签毕竟是含噪的，相当于比较靠谱的信息都要来自有标签数据集，所以想通过自监督的形式较少偏差。

但是第二个模块就感觉怪怪的了，在之前一些采用两两相似度的方法都是分阶段了，而且都表明这种比标签信息弱的两两相似度用于聚类不需要具体指定簇中心，如果用输出维度的索引表示类别，那同一张无标签的图像可能在不同的轮次属于不同的簇（类别），因为在训练过程中我们通过预先给定的两两相似度只决定是拉近或者推远，然后慢慢收敛至一起。但在这个算法中还要将输出向量作为多元分类的伪标签来计算交叉熵损失，那会不会出现一种矛盾的情况，初始阶段比如两个相同类别的图片的输出向量分别是 $[0.1, 0.9], [0.9, 0.1]$ ，那按照二元分类损失模型应该拉近两者距离，而按照多元分类损失，模型应该保持，并尽量优化输出结果为 $[0.0, 1.0], [1.0, 0.0]$ ，此时这个模型构建的总损失之间就是有矛盾的，而且我觉得这种情况在初始训练很有可能出现，然后模型一直训练不下去，因为论文强调了模型是随机初始化的，那也就是可以认为初期时不具备任何表征能力，输出结果时随机的。

我觉得如果还是采用分阶段更合理一点，先用两两相似度训练，再考虑加入多元伪标签分类损失，这个可能会减少上述情况。以上是根据论文内容提出的一种假设情况，具体是否这样还有待验证了。

是雨玮a

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
End-to-end novel visual categories learning via auxiliary self-supervision (Neural Networks 2021)

半监督学习在很大程度上缓解了深度学习对大量标注的强烈需求。然而，大多数方法都采用了一个共同的假设，即在同一类未标记的数据中总是有标记的数据，这是不切实际的，而且对于现实世界的应用程序是受限制的。在本研究工作中，我们关注的是当未标记数据和标记数据的类别彼此分离时的半监督学习。主要的挑战是，当标签数据彼此独立且不属于同一类别时，如何有效地利用标签数据和非标签数据中的知识。以前最先进的方法已经提出构造成对相似伪标签作为监测信号。
复制链接

扫一扫