【Novel Category Discovery】Class-Incremental Novel Class Discovery in ECCV 2022 个人理解

Fulin_Gao

已于 2023-03-03 16:21:18 修改

阅读量567

点赞数 3

分类专栏： Novel Category Discovery 文章标签：计算机视觉 opencv 图像处理分类聚类

于 2023-03-01 19:59:27 首次发布

本文链接：https://blog.csdn.net/beginner1207/article/details/129279501

版权

Novel Category Discovery 专栏收录该内容

8 篇文章 9 订阅

订阅专栏

一、简介

题目： Class-Incremental Novel Class Discovery
会议： ECCV 2022
任务： 最初，有一个有标签的数据集（其数据均属已知类），出于隐私保护，使用该数据集训练过模型后，数据会被变得不可获取，之后会有一个无标签的数据集（其数据均属于新类/未知类，与已知类不相交），要求模型保留对已知类的分类能力同时对无标签样本进行聚类，或称新类发现（Novel Category Discovery）。这样该无标签数据集就有了标签，训练模型后又变得不可获取，再对另一个无标签数据集进行新类发现，如此往复。
Note: 确定类别数量对神经网络的搭建来说是极其重要的，该方法没有提供评估类别数量的方法，有理由认为作者假设新类数据的类别数是已知的。
方法：
（1）建立网络学习有标签数据。以ResNet-18为backbone，加一个有监督的分类头（大小等于已知类数量）搭建一个神经网络，以交叉熵为损失在有标签数据集上进行网络训练。保留训练后的模型并对每个类计算由backbone提取出的特征的均值（文中称为原型）和方差。
（2）建立网络准备学习无标签数据。同样以ResNet-18为backbone，新建一个网络，加两个分类头（一个分类头大小=已知类数量+新类数量，另一个分类头大小=新类数量）。已知类部分网络权重由(1)中模型参数初始化。
（3）学习无标签数据并减少对已学信息的遗忘（此时有标签数据不可获取）。为保证对新类的学习效率，作者将 $\mathcal L_{bce}+w_{\text{self}}(t)\mathcal L_{\text{self}}+w_{\text{self}}(t)\mathcal L_{\text{mse}}$ 作为损失函数的一部分，为保留模型对已知类的识别能力（减少遗忘），作者将 $\mathcal L_{replay}+\lambda\mathcal L_{\text{KD}}^{\text{feat}}$ 作为损失的另一部分。

该方法结构图，如上所示。

二、详情

1. 学习有标签数据

最初，有提供了标签的已知类数据集 $\mathcal D^{[\text L]}$ 。此时任务为常规分类任务，记作 $\mathcal T^{[\text L]}$ 。

A. 有监督训练

最常见的有监督分类训练任务。以ResNet-18为backbone，加一个有监督的分类头（大小等于已知类数量）搭建一个神经网络，以交叉熵为损失函数：

其中， $\textbf x^{[\text L]}$ 和 $\textbf y^{[\text L]}$ 为有标签样本和对应的真实标签， $C^{[\text L]}$ 为已知类类别数量， $\sigma_k(*)$ 为softmax函数， $g (*)$ 和 $h (*)$ 分别特征提取器(backbone)和分类头。训练后的特征提取器（记作 $g^{[\text L]}(*)$ ）会被保存用于之后的增量学习。

显然， $\mathcal L_{\text{ce}}$ 的作用是将属于同一个已知类的数据放到一起。

B. 保留原型和特征方差

在模型训练之后，在数据不可获取之前，需要保留原型和特征方差用于后续训练，以减少在当前任务中学习的知识的遗忘。

其中， $μc[L] \pmb\mu_c^{[\text L]}$ 为原型（作者用的是均值）， $vc[L]2 {\pmb v_c^{[\text L]^2}}$ 为方差。各类别的 $μc[L] \pmb\mu_c^{[\text L]}$ 和 $vc[L]2 {\pmb v_c^{[\text L]^2}}$ 会被保留并在增量学习时被使用。

2. 学习无标签数据

之后，有标签的已知类数据集 $\mathcal D^{[\text L]}$ 变得不可获取，新增任务 $\mathcal T^{[\text U]}$ ，即给定无标签数据 $\mathcal D^{[\text U]}$ 对其进行聚类，同时保留模型执行 $\mathcal T^{[\text L]}$ 的能力。

仍以ResNet-18为backbone，记作 $g (*)$ ，增加两个分类头，其中一个大小=新类别数量，用来专门针对无标签数据，记作 $h^{[\text U]}(*)$ ，另一个大小=已知类数量+新类数量，用来保留对已知类的分类能力并完成针对新类的聚类任务，记作 $h^{[\text A]}(*)$ 。另外，backbone和已知类部分按照在有标签数据上训练出的模型的参数进行初始化。

A. 伪标签生成

为了更好的学习无标签数据，作者采用了AutoNovel的方法（我们对AutoNovel也做了分析，点击链接即可查看）。

该方法会首先给数据打上一个伪标签，伪标签定义如下：

其中， $\textbf z_i^{[\text U]}$ 和 $\textbf z_j^{[\text U]}$ 分别为两个无标签样本经backbone提取出来的特征。它会匹配两个特征的前 $k$ 个最大值的索引，如果索引相同（不考虑顺序）则标签为1，否则为0。

上图可方便理解。图中， $s_{ij}$ 即为 $\tilde y_{ij}^{[\text U]}$ 。

有了标签，就可以训练 $h^{[\text U]}(*)$ 和 $g (*)$ 了，损失函数如下：

这是一个二元交叉熵公式，标签为通过AutoNovel方法分配的伪标签。其中，

$p_{ij}=\sigma(\langle h^{[\text U]}(g(\textbf x_i^{[\text U]})),h^{[\text U]}(g(\textbf x_j^{[\text U]}))\rangle)$

其中， $\sigma(*)$ 为logistic函数。 $p_{ij}$ 可理解为分类器对于 $\textbf x_i^{[\text U]}$ 和 $\textbf x_j^{[\text U]}$ 的预测的相似性，相似性越高值越接近1。

显然， $\mathcal L_{\text{bce}}$ 的作用是将无标签样本中相似的样本放到一起。

这样， $h^{[\text U]}(*)$ 和 $g (*)$ 被训练后，输入一个无标签数据 $\textbf x^{[\text U]}_i$ 便可得到一个预测 $h^{[\text U]}(g(\textbf x^{[\text U]}_i))$ 。该预测是以簇的形式存在的，比如总共有3个新类，那么结果就应该是簇1-簇3。而实际新类应该从 $C^{[\text L]}$ 起始，比如原本已知类有4个，类1-4就被占用了，簇1-3应该放到类5-7。于是作者将预测标签定义如下：

B. $h^{[\text A]}()$ 、 $g ()$ 的优化

之后，作者将预测标签 $\hat y^{[\text U]}$ 作为伪标签，用于优化 $h^{[\text A]}(*)$ 和 $g (*)$ ，损失函数如下：

这也是一个有监督的交叉熵损失。 $|C^{[\text A]}|=|C^{[\text L]}|$ + $|C^{[\text U]}|$ 为类别总数， $\sigma_k(*)$ 为softmax函数。

显然， $\mathcal L_{\text{self}}$ 的作用是将属于同一个伪标签的无标签数据放到一起。

此外，为了保持无标签数据两个相关的视图的预测一致性，AutoNovel还引入了如下均方误差损失：

其中， $\sigma_k(*)$ 为softmax函数， $\bar{\textbf x}^{[\text U]}$ 为 ${\textbf x}^{[\text U]}$ 随机增强后的样本。

显然， $\mathcal L_{\text{mse}}$ 的作用是让同一样本的不同视图的预测结果尽可能接近。

于是，形成如下用于学习新类的损失：

其中， $\omega_{\text{self}}(t)$ 和 $\omega_{\text{mse}}(t)$ 为ramp-up函数，用来控制学习稳定性的。

综上， $\mathcal L_{\text{bce}}$ 被用于优化 $h^{[\text U]}(*)$ 和 $g (*)$ ，生成伪标签。之后，伪标签结合 $\mathcal L_{\text{novel}}$ 用于优化 $h^{[\text A]}(*)$ 和 $g (*)$ ，使模型实现对新类的学习。

3. 基于特征回放的增量学习

增量学习的目标为保留对旧类（已知类）的识别能力并逐渐掌握对新类的识别。

之前，我们在对已知类进行有监督学习时保留了特征提取器（ $g^{[\text L]}(*)$ ）、原型（ $μc[L] \pmb\mu_c^{[\text L]}$ ）、方差（ $vc[L]2 {\pmb v_c^{[\text L]^2}}$ ）。

首先，原型（ $μc[L] \pmb\mu_c^{[\text L]}$ ）和方差（ $vc[L]2 {\pmb v_c^{[\text L]^2}}$ ）被用于特征回放。根据高斯分布 $\mathcal N(\pmb\mu_c^{[\text L]},{\pmb v_c^{[\text L]^2}})$ 进行各类别的特征采样，并计算它们的交叉熵损失：

其中， $\textbf z^{[\text L]}$ 为采样特征，因为它是根据各类别的高斯分布采样所得所以是有标签的，标签为 $y^{[\text L]}$ ， $\sigma_k(*)$ 为softmax函数， $h^{[\text A]}(*)$ 为全类别分类头。

显然， $\mathcal L_{\text{replay}}$ 的作用是将属于同一已知类的采样特征放到一起。

此外，为了保证特征回放的有效性，作者还采用了特征蒸馏损失：

它在限制当前特征提取器 $g (*)$ 的更新，使其与之前保存的 $g^{[\text L]}(*)$ 的结果接近，

显然， $\mathcal L^{\text{feat}}_{\text{KD}}$ 的作用从而保证根据 $\mathcal N(\pmb\mu_c^{[\text L]},{\pmb v_c^{[\text L]^2}})$ 采样的特征在 $h^{[\text A]}(*)$ 中仍然适用。

于是，形成如下用于保留旧类识别能力的损失：

其中， $\lambda$ 为一个权重常数。

综上， $\mathcal L_{\text{past}}$ 用于优化 $h^{[\text A]}(*)$ 和 $g (*)$ ，使模型保留了对旧类的识别能力。

最终形成如下整体损失：

在假设未知类的数量已知的情况下，该方法可以实现增量式的新类别发现任务，既保留对旧类的识别能力又能逐渐学习新类的知识。

4. 评估指标

此外，作者还提供了一个更合理的性能评估策略，如下图：

如左图所示，旧类为0、1，新类为2、3。对于聚类任务，通常评估指标计算是采用Hungarian algorithm，将簇与实际类进行序号匹配，最后取最大准确率。

但是如果预测结果为 $[2, 3, 0, 1]$ ，真实标签为 $[0, 1, 2, 3]$ ，那么常规计算方式的预测精度为100%。但这是不合理的，因为它将新类预测为了旧类，旧类预测为了新类。

所以作者提出右图的方案，先只考虑新类的预测结果，结果必然在（0，新类数量-1）之间。之后采用Hungarian算法与真实标签进行匹配，得到簇0 $\leftrightarrow$ 类3、簇1 $\leftrightarrow$ 类2。接着，在簇序号的基础上加上旧类数量的值，这里旧类有2个就+2。于是重排的标签成了簇2、簇3。在实际计算精度时使用预测标签与重排的标签一一对比， $[2, 3, 0, 1]$ 与 $[0, 1, 3, 2]$ 对应位置没有相同的，所以精度为0。

可见作者的做法十分巧妙，并且结果更加合理。

Fulin_Gao

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
6
评论
【Novel Category Discovery】Class-Incremental Novel Class Discovery in ECCV 2022 个人理解

最初，有一个有标签的数据集（其数据均属已知类），出于隐私保护，使用该数据集训练过模型后，数据会被变得不可获取，之后会有一个无标签的数据集（其数据均属于新类/未知类，与已知类不相交），要求模型保留对已知类的分类能力同时对无标签样本进行聚类，或称新类发现（Novel Category Discovery）。这样该无标签数据集就有了标签，训练模型后又变得不可获取，再对另一个无标签数据集进行新类发现，如此往复。
复制链接

扫一扫