Self-supervised Label Augmentation via Input Transformations(通过输入转换标签增强的自监督的方法)

简介:

问题借助自监督旋转任务,多任务的框架,loss直接相加。会改变某些不可变的特征。如6变成9.有些时候回造成性能下降。(如下图第二个网络。f表示神经网络,)how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
主要思想学习关于原始标签和自监督标签的联合分布的单一统一任务。(如下图第三个网络。)
方法我们通过对输入转换的自我监督方式来扩充原始标签。
两个小trick(见introduction,倒数第二段介绍)1.aggregated inference :结合不同扩增的预测结果,提高预测精度 2.self-distillation: 一种新的知识转移技术.它将多重推理的知识转化为单一推理,.
应用场景我们的框架的广泛适用性多种多样完全监督的设置,例如,很少样本和分类不平衡情况。我们的的方法都大幅度提高精度

在这里插入图片描述
在这里插入图片描述

Abstract
讲了一下自监督常用的于无监督的场景(无标签),这边文章把他应用于监督场景中。 我们的方案训练模型学习原始的和自我监督的任务,但不同于传统的多任务学习框架,优化其相应损失的总和。我们的主要思想是学习关于原始标签和自监督标签的联合分布的单一统一任务。见Figure1(a)。。。。。。 我们通过对输入转换的自我监督来扩充原始标签 这种简单而有效的方法在学习原始任务和自监督任务的同时,允许通过放松一定的不变约束来训练模型。

它还支持聚合推理,将来自不同扩增的预测组合在一起,以提高预测精度。此外,我们提出了一种新的知识转移技术,我们称为自蒸馏,它在一个单一的(快速的)推理中具有聚合推理的效果。我们展示了我们的框架在各种全监督设置上的大精度改进和广泛适用性,例如,少样本和分类不平衡的场景。

Introduction
第一段主要讲了自监督广泛应用于无监督学习,我们人为的做标签,进行某种转换。我们要想正确的预测,必须学习到语义特征才能做出正确的判断。

第二段 以往的工作通常对原始任务和自监督任务保持两个独立的分类器(但共享相同的特征表示),并同时优化它们的目标.如图figure1(a) 然而,当使用全标记数据集时,这种多任务学习方法通常无法增加准确性。how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
贡献:Problem:我们首先讨论我们观察到的多任务学习方法迫使原始任务的主要分类器相对于自监督任务的转换保持不变。由于变换可以很大程度上改变样本的字符特征和/或识别对象的有意义信息,因此,这种不变性可能导致任务的复杂性增加。这样会损害全局特征学习。降低全监督模型的精度。(白话概括:我们原来的分类任务只学习相对于旋转不变的特征,比如原来一个数字6,经过旋转变成9,所以我们不知道他原来是6还是9.这样就会导致原来的任务变复杂了)Method:针对原始标签和自我监督标签的联合分布,学习一个单一的统一任务,而不是之前自我监督文献中通常使用的两个独立任务(如在数据集CIFAR10,本来10个类,现在我们旋转0,90,,180,270,他就变成了40个类,我们称之为标签的扩充)。

这种标签增强方法,我们称为自监督标签增强(SLA),在没有假设原始标签和自监督标签之间关系的情况下,不强制(转换具有任何不变性),=========:既然我们为每个转换分配不同的自我监督标签,那么就有可能在测试时通过聚合所有的转换来做出预测,如图1(b)所示。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应,我们提出了一种新的自精馏技术,该技术将多个推理的知识转化为单个推理,如图1(b)所示。
原文的图:
在这里插入图片描述
在这里插入图片描述
图 a:概述我们的自我监督标签增加和以前的方法与自我监督
图b:举例说明我们的聚合方法利用所有扩增样本和自蒸馏方法转移聚合的知识到自己

2.Self-supervised Label Augmentation
在第2.1节中,我们首先讨论了利用自监督标签的传统多任务学习方法及其局限性。

在2.2节中介绍我们的学习框架,该框架可以充分利用自我监督的力量

本文额外使用的技术:
aggregation:利用所有不同的扩增样本,以提供使用单一模型的集成效果(将自监督标签和原标签融合)。
self-distillation:将聚合的知识转移到模型本身中,加快推理速度不影响整体效果。
Notation:
在这里插入图片描述

2.1 Multi-task Learning with Self-supervision
将自监督标签用于其他任务的常用方法是优化主任务和自监督任务的两个损失,同时共享主任务和自监督任务之间的特征空间。

在这里插入图片描述
这里的多任务指的是一个主干网络f,加两个分类头,这个网络的输入是翻转后的数据,对数据进行翻转变换,会导致一些特征和原来完全不一样。比如6和9。在这种情况下,强制这些转换的不变性会使学习更加困难,甚至会降低性能。

在这里插入图片描述
公式2,把旋转变换当成数据增强。没有学习旋转的特征。这样的目的可以提高目标网络的泛化能力。另一方面: 如果一个转换改变了语义,那么与转换相关的不变性就会干扰语义表征的学习。

2.2 Eliminating Invariance via Joint-label Classifier
我们的关键思想是去除变换后的样本中(1)和(2)中的分类器(f(·);u)不必要的不变属性。

怎么样去除不变的属性?????用一个联合分布

在这里插入图片描述

(Aggregated inference.) AND( Self-distillation from aggregation.)

我们为每个转换分配不同的自我监督标签,通过在测试时聚合所有的转换来做出预测是可能的。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应,我们提出了一种新的自蒸馏技术,它将多个推理的知识转化为单个推理.

(然在-聚合推理达到突出每提到性能,它需要计算j˜z = f(˜x j) j,也就是说,它需要M乘以计算成本高于单一推理,所以用自蒸馏办法优化,来加速)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值