Self-supervised Label Augmentation via Input Transformations(通过输入转换标签增强的自监督的方法)

最新推荐文章于 2023-09-14 15:31:57 发布

okmacong

最新推荐文章于 2023-09-14 15:31:57 发布

阅读量1.9k

点赞数 4

本文链接：https://blog.csdn.net/okmacong/article/details/108717094

版权

简介：

问题	借助自监督旋转任务，多任务的框架，loss直接相加。会改变某些不可变的特征。如6变成9.有些时候回造成性能下降。（如下图第二个网络。f表示神经网络，）how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
主要思想	学习关于原始标签和自监督标签的联合分布的单一统一任务。（如下图第三个网络。）
方法	我们通过对输入转换的自我监督方式来扩充原始标签。
两个小trick（见introduction，倒数第二段介绍）	1.aggregated inference :结合不同扩增的预测结果，提高预测精度 2.self-distillation: 一种新的知识转移技术.它将多重推理的知识转化为单一推理，.
应用场景	我们的框架的广泛适用性多种多样完全监督的设置，例如，很少样本和分类不平衡情况。我们的的方法都大幅度提高精度

在这里插入图片描述

Abstract 讲了一下自监督常用的于无监督的场景（无标签），这边文章把他应用于监督场景中。我们的方案训练模型学习原始的和自我监督的任务，但不同于传统的多任务学习框架，优化其相应损失的总和。我们的主要思想是学习关于原始标签和自监督标签的联合分布的单一统一任务。见Figure1(a)。。。。。。我们通过对输入转换的自我监督来扩充原始标签这种简单而有效的方法在学习原始任务和自监督任务的同时,允许通过放松一定的不变约束来训练模型。

它还支持聚合推理，将来自不同扩增的预测组合在一起，以提高预测精度。此外，我们提出了一种新的知识转移技术，我们称为自蒸馏，它在一个单一的(快速的)推理中具有聚合推理的效果。我们展示了我们的框架在各种全监督设置上的大精度改进和广泛适用性，例如，少样本和分类不平衡的场景。

Introduction 第一段主要讲了自监督广泛应用于无监督学习，我们人为的做标签，进行某种转换。我们要想正确的预测，必须学习到语义特征才能做出正确的判断。

第二段以往的工作通常对原始任务和自监督任务保持两个独立的分类器(但共享相同的特征表示)，并同时优化它们的目标.如图figure1(a) 然而，当使用全标记数据集时，这种多任务学习方法通常无法增加准确性。how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
贡献：Problem:我们首先讨论我们观察到的多任务学习方法迫使原始任务的主要分类器相对于自监督任务的转换保持不变。由于变换可以很大程度上改变样本的字符特征和/或识别对象的有意义信息，因此，这种不变性可能导致任务的复杂性增加。这样会损害全局特征学习。降低全监督模型的精度。（白话概括：我们原来的分类任务只学习相对于旋转不变的特征，比如原来一个数字6，经过旋转变成9，所以我们不知道他原来是6还是9.这样就会导致原来的任务变复杂了）Method：针对原始标签和自我监督标签的联合分布，学习一个单一的统一任务，而不是之前自我监督文献中通常使用的两个独立任务（如在数据集CIFAR10,本来10个类，现在我们旋转0,90，,180,270，他就变成了40个类，我们称之为标签的扩充）。

这种标签增强方法，我们称为自监督标签增强(SLA)，在没有假设原始标签和自监督标签之间关系的情况下，不强制(转换具有任何不变性),=========：既然我们为每个转换分配不同的自我监督标签，那么就有可能在测试时通过聚合所有的转换来做出预测，如图1(b)所示。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应，我们提出了一种新的自精馏技术，该技术将多个推理的知识转化为单个推理，如图1(b)所示。
原文的图：
在这里插入图片描述

图 a:概述我们的自我监督标签增加和以前的方法与自我监督
图b:举例说明我们的聚合方法利用所有扩增样本和自蒸馏方法转移聚合的知识到自己