【Novel Category Discovery】Open World Semi-Supervised Learning in ICLR 2022 个人理解

Fulin_Gao

已于 2023-03-03 16:21:42 修改

阅读量1.1k

点赞数 4

分类专栏： Novel Category Discovery 文章标签：机器学习深度学习人工智能计算机视觉

于 2023-02-23 15:49:13 首次发布

本文链接：https://blog.csdn.net/beginner1207/article/details/129174534

版权

Novel Category Discovery 专栏收录该内容

8 篇文章

订阅专栏

文章介绍了ICLR2022会议上关于OpenWorldSemi-SupervisedLearning的任务，即在部分样本有标签，部分无标签的数据集上进行分类和新类发现。方法包括使用SimCLR预训练网络，创建大型分类头以及应用三个损失函数：监督目标损失、成对目标损失和正则化项，以同步已知类与新类的学习，保持概率分布均匀，并确保样本正确分类和聚类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简介

题目： Open World Semi-Supervised Learning
会议： ICLR 2022
任务： 给定一个数据集，其中部分样本有标签（这里称其为已知类），其余样本无标签（可能属于已知类也可能属于未知类），要求将无标签样本中属于已知类的样本正确分类，对属于未知类的样本进行聚类或称发现新类。
Note: 这里的Open World Semi-Supervised Learning与Generalized Category Discovery讲的是同一件事情。
方法：
（1）使用SimCLR进行网络预训练以获得更好的特征表达。预训练是以自监督的方式在目标数据集的全部有标签和无标签数据上进行；
（2）通过在Backbone后接一个大的分类头来实现对已知类的分类和新类的发现。大的分类头是指SoftMax层的神经元个数远大于已知类的个数，这样已知类样本可以激活对应的神经元得到分类概率，而新类别则会激活其余神经元（并非其余的全部，因为初始的分类头较大）；
（3）为了使网络能够达到（2）中所期望的效果，作者提出了三个损失：
a. Supervised objective with uncertainty adaptive margin。用于控制网络对已知类的学习速度，使其不会过快，达到与新类的学习速度同步的目的；
b. Pairwise objective。用于确保有标签样本能与同类别样本分到同一组，并使无标签样本与最近邻样本（可能是有标签的样本也可能是无标签的样本）分到同一组；
c. Regularization term。用于确保概率预测结果不会集中在某个或某些类别上。

开放世界半监督学习
如上图所示，Open World Semi-Supervised Learning的目标是将属于已知类的无标签集中的样本正确分类，并将属于新类别的样本聚到一个新的组。

二、详情

1. 网络结构

在Backbone（比如ResNet-50）后加一个大的分类头。大的分类头是指SoftMax层的神经元个数远大于已知类的个数，这样已知类样本可以激活对应的神经元得到分类概率，而新类别则会激活其余神经元（并非其余的全部，因为初始的分类头较大）。

2. 损失函数设置

为达到划分已知类并发现新类的目的，作者设置了一个包含3个成分的损失函数：

其中， $\eta_1$ 和 $\eta_2$ 为调节因子，作者均设置成了1。

A. Supervised objective with uncertainty adaptive margin

此项的目的为缩小已知类的类内方差与新类的类内方差的差距，以避免新类样本被分到已知类中。说白了就是不希望网络只学习有标签的数据，也关心一下无标签数据中新类的学习。

类内方差由不确定性衡量。目标函数如下：

其中， $W$ 为Backbone到分类头的权重， $z$ 为Backbone的输出（即所提取出的特征）， $\mathcal Z_l$ 是有标签样本所提特征的集合， $\bar u$ 为不确定性， $\lambda$ 为调节因子， $s$ 是控制交叉熵的一个参数。

Note: 经过理解和对比源码第95行，我发现此处 $+\lambda\bar u$ 应该是写错了，应改为 $-\lambda\bar u$ 。具体原因后面说。

实际的交叉熵长这样：

所以对比前一个目标函数可知，作者主要是修改了有标签样本 $z_i$ 的交叉熵（具体说就是缩小了 $z_i$ 标签对应的SoftMax神经元上的值，注意只有与正确标签对应的预测概率值被缩小了，其余的预测概率值没有变化，此处说缩小是在 $-\lambda\bar u$ 的情况下），以此实现通过不确定性 $\bar u$ 来控制网络对有标签样本的学习速度的目的。不确定性 $\bar u$ 由下式计算：

其中， $D_u$ 为无标签样本集， $\text{Pr}$ 为预测概率。简单来说，一个无标签样本的不确定性就是1减去该样本的预测概率的最大值， $\bar u$ 就是所有无标签样本的不确定性的均值。

总结下来就是：

训练初期，对无标签样本的预测的不确定性高（因为预测概率并没有集中在一个类别上），则该损失函数可使已知类与新类的类内方差接近且都较高。（此处，类内方差与交叉熵的关系我并不理解，但是可以理解的是，对于作者提出的 $\mathcal L_\text S$ 来说， $\log$ 后的 $\frac{e^x}{e^x+a}$ 是个增函数， $-\log(*)$ 是个减函数， $W\!\!\cdot\!z-\lambda\bar u$ 使 $x$ 减小了， $x\downarrow$ ，则 $\frac{e^x}{e^x+a}\downarrow$ ，则 $-\log(*)\uparrow$ ，则 $\mathcal L_\text S\uparrow$ ，这样初期不确定性高的时候，模型将样本预测为已知类的损失会比较大，模型为了降低损失就会把概率更多的分配给新类）；