简介:
问题 | 借助自监督旋转任务,多任务的框架,loss直接相加。会改变某些不可变的特征。如6变成9.有些时候回造成性能下降。(如下图第二个网络。f表示神经网络,)how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks? |
---|---|
主要思想 | 学习关于原始标签和自监督标签的联合分布的单一统一任务。(如下图第三个网络。) |
方法 | 我们通过对输入转换的自我监督方式来扩充原始标签。 |
两个小trick(见introduction,倒数第二段介绍) | 1.aggregated inference :结合不同扩增的预测结果,提高预测精度 2.self-distillation: 一种新的知识转移技术.它将多重推理的知识转化为单一推理,. |
应用场景 | 我们的框架的广泛适用性多种多样完全监督的设置,例如,很少样本和分类不平衡情况。我们的的方法都大幅度提高精度 |
它还支持聚合推理,将来自不同扩增的预测组合在一起,以提高预测精度。此外,我们提出了一种新的知识转移技术,我们称为自蒸馏,它在一个单一的(快速的)推理中具有聚合推理的效果。我们展示了我们的框架在各种全监督设置上的大精度改进和广泛适用性,例如,少样本和分类不平衡的场景。
第二段 以往的工作通常对原始任务和自监督任务保持两个独立的分类器(但共享相同的特征表示),并同时优化它们的目标.如图figure1(a) 然而,当使用全标记数据集时,这种多任务学习方法通常无法增加准确性。how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
贡献:Problem:我们首先讨论我们观察到的多任务学习方法迫使原始任务的主要分类器相对于自监督任务的转换保持不变。由于变换可以很大程度上改变样本的字符特征和/或识别对象的有意义信息,因此,这种不变性可能导致任务的复杂性增加。这样会损害全局特征学习。降低全监督模型的精度。(白话概括:我们原来的分类任务只学习相对于旋转不变的特征,比如原来一个数字6,经过旋转变成9,所以我们不知道他原来是6还是9.这样就会导致原来的任务变复杂了)Method:针对原始标签和自我监督标签的联合分布,学习一个单一的统一任务,而不是之前自我监督文献中通常使用的两个独立任务(如在数据集CIFAR10,本来10个类,现在我们旋转0,90,,180,270,他就变成了40个类,我们称之为标签的扩充)。
这种标签增强方法,我们称为自监督标签增强(SLA),在没有假设原始标签和自监督标签之间关系的情况下,不强制(转换具有任何不变性),=========:既然我们为每个转换分配不同的自我监督标签,那么就有可能在测试时通过聚合所有的转换来做出预测,如图1(b)所示。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应,我们提出了一种新的自精馏技术,该技术将多个推理的知识转化为单个推理,如图1(b)所示。
原文的图:
图 a:概述我们的自我监督标签增加和以前的方法与自我监督
图b:举例说明我们的聚合方法利用所有扩增样本和自蒸馏方法转移聚合的知识到自己
在2.2节中介绍我们的学习框架,该框架可以充分利用自我监督的力量
本文额外使用的技术:
aggregation:利用所有不同的扩增样本,以提供使用单一模型的集成效果(将自监督标签和原标签融合)。
self-distillation:将聚合的知识转移到模型本身中,加快推理速度不影响整体效果。
Notation:
这里的多任务指的是一个主干网络f,加两个分类头,这个网络的输入是翻转后的数据,对数据进行翻转变换,会导致一些特征和原来完全不一样。比如6和9。在这种情况下,强制这些转换的不变性会使学习更加困难,甚至会降低性能。
公式2,把旋转变换当成数据增强。没有学习旋转的特征。这样的目的可以提高目标网络的泛化能力。另一方面: 如果一个转换改变了语义,那么与转换相关的不变性就会干扰语义表征的学习。
怎么样去除不变的属性?????用一个联合分布
我们为每个转换分配不同的自我监督标签,通过在测试时聚合所有的转换来做出预测是可能的。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应,我们提出了一种新的自蒸馏技术,它将多个推理的知识转化为单个推理.
(然在-聚合推理达到突出每提到性能,它需要计算j˜z = f(˜x j) j,也就是说,它需要M乘以计算成本高于单一推理,所以用自蒸馏办法优化,来加速)