IIRC: Incremental Implicitly-Refined Classification 论文阅读笔记

IIRC: Incremental Implicitly-Refined Classification

Abstract

我们引入了“增量隐式细化分类(IIRC)”设置,这是对类增量学习设置的扩展,其中传入的类批有两个粒度级别。也就是说,每个样本可以有一个高级(粗)标签,如“熊”和一个低级(细)标签,如“北极熊”。一次只提供一个标签,如果模型已经学习了另一个标签,它必须找出它。这种设置更符合现实生活的场景,在现实生活中,学习者通常与同一类实体多次交互,发现它们的粒度更大,同时仍然努力不忘记之前的知识。此外,这种设置可以为一些重要的终身学习挑战提供评估模型,这些挑战在现有的设置下很难解决。这些挑战可以通过以下例子来激发:“如果一个模型在一个任务中接受熊类训练,在另一个任务中接受北极熊训练,它会忘记熊的概念吗?它会正确地推断北极熊仍然是熊吗? 它会错误地把北极熊和其他种类的熊联系在一起吗?”我们开发了一个标准化的基准,可以在IIRC设置上评估模型。我们评估了几种最先进的终身学习算法,并强调了它们的优点和局限性。例如,基于蒸馏的方法表现相对较好,但很容易错误地在每个图像中预测出太多的标签。我们希望提议的设置和基准能够为从业者提供一个有意义的问题设置。

1.Introduction

两种lifelong learning

  • task incremental learning(TIL)
    任务增量学习,其中模型可以访问任务分隔符(比如任务id),用于区分任务。这种设置的模型通常是多头的,每个任务都有一个单独的分类层。
  • class incremental learning(CIL)
    任务增量学习,其中模型可以访问任务分隔符(比如任务id),用于区分任务。这种设置的模型通常是多头的,每个任务都有一个单独的分类层。在推理时区分所有类和所有任务。因此,为这种范式开发的模型通常是单头的。类增量设置与现实生活场景更加一致,并且比任务增量场景更具挑战性

现有benchmark的问题

给定样本(如标签)的信息不能在任务之间改变,两个相似甚至相同的输入样本在两个不同的任务中有两个不同的标签,将存在问题

目标

我们希望模型学习新标签,在不忘记旧标签的情况下将其与旧标签联系起来。

主要贡献

我们提出增量式隐式细化分类(IIRC)设置,其中模型开始训练一些粗的、高级的类,并观察新的、细粒度的类,当它训练新的任务。在模型的生命周期内,它可能会遇到带有细粒度标签的新样本或旧样本。

我们提供了一个标准化的基准来评估IIRC设置中的终身模型。我们采用了常用的ImageNet和CIFAR数据集,并提供了与几种主要深度学习框架(PyTorch、Tensorflow和Jax)兼容的基准设置。

我们在基准上对知名的终身学习算法进行评估,并突出其优势和局限性,同时确保模型在一个公平和标准化的设置下进行比较。

2.Incremental Implicitly-Refined Classification (IIRC)

2.1. Under-explored challenges in class incremental learning setting

如果模型在初始任务中训练在一个高级别的标签上(比如说“熊”),然后训练在一个低级别的标签上,这个低级别的标签是前一个标签(比如说“北极熊”)的细化类别,那么模型会学到什么样的联想,会忘记什么样的联想?

这个模型会把北极熊的形象概括为“熊”和“北极熊”吗?这个模型会灾难性地忘记“熊”的概念吗?这个模型会不会推断出这种虚假的相关性:“所有的熊都是北极熊”?如果模型看到相同样本(跨不同任务)的不同标签(在不同粒度级别)会发生什么?模型是否记得最新的标签或最古老的标签,或它记得所有的标签?这些挑战不能通过消除对内存或重放缓冲区容量的限制来克服(如第6节所示)。

2.2. Terminology 术语

task
指模型在单头设置中训练的新一批类的到来,因此它不同于它在任务增量学习中指示不同的分类头的使用。

subclass && superclass
子类和超类

incomplete information
如果任务样本有两个标签,只提供属于当前任务的标签。

complete information
如果任务样本具有两个标签,则提供属于当前和先前任务的标签。

in-task validation set && post-task validation set
由于模型通常是在不完整的信息设置中训练的,因此它需要访问一个验证集来监控训练的进度,而这个验证集仍然是一个不完整的信息集,否则将会有某种标签泄漏。另一方面,在特定任务的训练之后,模型必须在一个完整的信息集上进行评估,因此在模型开发和调整的过程中需要使用一个完整的信息验证集,以便不会在测试集上过度使用。我们在基准测试中提供了两者,我们称第一个为任务内验证集,而后一个为任务后验证集。

2.3 Setup

每个样本可以有一个或两个相关的标签

对于任何超类-子类对,超类总是在更早的任务中引入,直觉上高级标签应该相对更容易学习。此外,一个超类的样本数总是大于一个子类的样本数(它随着子类数的增加而增加,直到一个极限)。

在训练过程中,我们总是遵循不完整的信息设置。在第一个任务中,只有超类的一个子集(没有子类)被用来训练模型。与其他任务相比,第一个任务有更多的类(和样本),它可以被视为一种预处理任务。后续任务混合了超类和子类。

3.related work

replay based

can be used with both task and class incremental setups
perform better

regularization based

can be used with both task and class incremental setups

parameter isolation

参数隔离方法往往计算量大,需要访问任务标识符,因此非常适合任务增量设置。

本文的方法与现有方法BRESDS[41]的异同

专注于学习新的联想,并在学习新任务时更新现有的联想

BREADS[41]提出了一个基准来评估子种群转移背景下模型的泛化能力。具体来说,它们定义了一个层次结构,并在对应于某些亚种群的样本上训练模型(例如,“贵宾犬”和“梗犬”是“狗”的亚种群)。然后对来自一个未知亚群的样本进行评估。例如,它应该将“斑点狗”标记为“狗”。虽然一眼看去,IIRC可能看起来与品种相似,但有几个不同之处。

IIRC关注lifelong learning,BREADS侧重于generalization。此外,训练和评估设置也不同。如果我们把狗的例子推广到IIRC,模型可能首先训练一些“贵宾犬”和“梗犬”(标记为“狗”)的例子。在下一个任务中,它可能会训练一些“贵宾犬”(标记为“贵宾犬”)。当模型在两项任务中被评估时,它应该为贵宾犬的图像预测两个标签(“贵宾犬”和“狗”)。

4. Benchmark

4.1. Dataset

ImageNet
CIFAR100

对于这两个数据集,我们创建了一个两级的类标签层次结构,其中每个标签从一个叶节点开始,相似的标签被分配一个公共的父标签。叶节点是子类,父节点是超类。有些子类没有对应的超类,以此来丰富设置,使其更符合实际。

虽然数据集有一个预定义的层次结构(例如,ImageNet遵循WordNet层次结构),但我们开发了一个新的层次结构,因为现有的层次结构更多地关注标签的语义,而不是视觉相似性(例如,“滑动门”和“栅栏”都被归入“障碍”一类)。我们将这些经过调整的数据集称为IIRC-ImageNet和IIRC-CIFAR.。

在IIRC-CIFAR中,每个超类都有相似数量的子类(四至八个)。

IIRC-Imagenet上每个超类的子类。但是IIRC-图像网的分布很不均匀(图3),子类的数量从3到118不等。

4.2. Metrics 度量

  • Exact-Match Ratio (MR) metric 精确匹配比率度量
    一个限制是它没有区分部分不正确的预测和完全不正确的预测。
  • Jaccard similarity(JS)(也叫intersection over union) 雅可比相似度
  • precision-weighted Jaccard similarity (pw-JS) 精度加权雅可比相似度
    真阳性与 真阳性和假阳性之和 的比
    Rjk可以作为模型在第k个task上的性能的代理,因为第k个task训练了更多的任务(随着j的增加)。
  • Rj
    在评估过程中,模型必须预测给定样本的所有正确标签,即使这些标签是在不同的任务中看到的

5. Baselines

5.1 Model Adaptations

we use the binary cross-entropy loss (BCE) as the classification loss.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值