#高效微调统一新范式

仅微调0.02%参数,性能接近全量微调!

来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后,提出了一种新的框架——子空间微调,旨在将所有已知的PEFT方法统一在一个理论下。

Scaling Laws当道,但随着大模型应用的发展,基础模型不断扩大的参数也成了令开发者们头疼的问题。

为了减轻训练负担,Adapter、Prompt-Tuning以及LoRA等高效微调(Parameter Efficient Fine-Tuning, PEFT)算法越来越受到大家伙的青睐。

那么,问题来了——

尽管近年来高效微调领域发展迅速,涌现了多种方法,但不同PEFT方法背后的数学基础几乎没有得到深入研究。

此外,不同PEFT方法之间的性能差异及其原因尚未系统地探讨。这种理论深度的缺乏限制了研究者对这些方法潜在优势和局限性的理解,阻碍了它们在实际应用中的优化和创新。

为了解决这一问题,来自上海交通大学的研究者们在对各种PEFT方法进行全面数学分析后,提出了一种新的框架——子空间微调,旨在将所有已知的PEFT方法统一在一个理论下,

具体来说,子空间微调方法主要集中于调整原始参数的子空间,涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间,并从分解理论的角度阐明了每种方法的数学原理。此外,研究者分析了为什么这些方法会导致性能差异,提供了理解不同PEFT策略内在动态的全面理论基础。

他们基于此提出了两种新的PEFT方法,新方法在仅微调0.02%参数的情况下,性能接近于全面微调

研究者还介绍了一个有效的框架,在不引入额外训练参数的情况下,提升了LoRA等方法的性能。通过在三种不同模型上测试超过十种方法,广泛的实验验证了其理论的稳健性,同时展示了提出的方法和框架的有效性。

51c视觉~合集4_数据集

来看论文细节。

子空间微调理论

考虑任何给定主干网络层的冻结权重矩阵 , 其中 , 并用权重矩阵  的性能  来量化模型的性能, 值越高表示性能越好。

假设存在最优权重矩阵 , 且  对所有  成立。PEFT的目标公式化为:

其中  衡量两个矩阵之间的差异。函数  被视为增量调优, 表示对矩阵  的每个元素的修改, 但这种表征过于笼统。

从分解理论的角度看, 调整矩阵涉及修改其对应的子空间, 因此, 所有PEFT方法可视为子空间微调。

如此, 优化的目标是找到  在  基所生成的子空间内的最大投影, 然后将  与其对齐。

有两种方法实现这一目标:通过调整  来逼近 , 或操作  的子空间以接近或包含  。

研究者将函数  分配给两个主要角色:直接重构对应  的子空间, 以更好地对齐 , 或引入一个新子空间并与原始子空间结合。这些过程数学表示为:

其中,  概括了  的子空间重构过程,  描述了子空间的联合。研究者将这些操作分别称为 “子空间重构”和“子空间扩展”, 并将现有方法分类为三类:

  1. 基于子空间重构的方法,将复杂空间分解为易理解的子空间,并调整这些派生子空间的基
  2. 基于子空间扩展的方法, 引入一个新子空间, 在新子空间和原始权重矩阵 对应的子空间基所生成的空间内找到最优权重  的最大投影;
  3. 基于子空间组合的方法,同时采用上述子空间调整。

51c视觉~合集4_权重_02

子空间重构

基于先前概述的框架,子空间重构方法首先将的空间分割为可解释的子空间,然后细化这些子空间以提高模型效率。许多PEFT策略集中于直接重构与原始权重矩阵相关的子空间,著名例子包括SAM-PARSER、Diff Pruning、(IA)3、BitFit、Prefix-tuning和Prompt-tuning等。

研究者从奇异值分解 (SVD) 开始探索, 原始权重矩阵  被分解为正交子空间,涵盖了原始矩阵空间的全部。分解表示为 , 这种分解将  分成左奇异向量  列空间的正交基)、奇异值  (调整维度和缩放)和右奇异向量  (  行空间的正交基)。通过调整分解获得的子空间, 可以重构原始空间, 分为三种模式:

  1. 奇异值调整:调整中的奇异值,修改每个主成分的权重,而不影响子空间方向。
  2. 简单奇异向量调整:通过缩放生成的子空间来调整 和 中的奇异向量,保留方向特性,同时调整幅度。
  3. 复杂奇异向量调整:对奇异向量进行更复杂的变换,重新定向或重塑子空间,全面调整矩阵结构。

51c视觉~合集4_数据集_03

基于这一理论,研究者提出了两种新的微调方法:SSL(Scaling the Subspace of the Left singular vectors)和SSB(Scaling the Subspace of Both left and right singular vectors)。

从下图中可以看出,SSL最少只需要微调0.02%的参数,SSB最少只需要微调0.06%的参数,就能实现全量微调99%的性能

51c视觉~合集4_数据集_04

关于每种模式的具体操作、每种方法的具体内容、其背后的数学原理,以及研究者如何基于这一理论提出两种新方法的详细信息,请参阅原论文。

子空间扩

基于扩展的方法引入新子空间,结合该新子空间和原始权重矩阵  的基生成扩展空间。

这些方法旨在找到最优权重  在新空间内的最接近投影, 通过引入额外的权重矩阵来扩大原始子空间的基以覆盖更大维度区域。通常, 这些方法的转换函数定义为 , 其中 s 代表缩放因子,  对应于新子空间,也称为附加项。

考虑权重矩阵 , 假设  。理想情况下, 有 , 即  和  占据相同的行和列空间, 使它们定位在同一超平面内。

如果  的秩为 n , 其列空间的维度等于 n , 生成  子空间。若  的秩小于 n , 它只能在  内生成一个子空间。假设  和  的列空间基可以生成整个  空间, 在最优情况下,  的列基向量应补充  的列基, 意味着 的列空间代表这些空间的直和。

一些研究表明, 最优权重  会放大原始权重矩阵中某些特定任务的方向, 这些方向对于预训练并不关键。此外, 最优权重还会调整  的主要方向。这些见解表明  可能与  的子空间共享大量共同基。因此,  可能只需考虑  中缺少但  中存在的一小部分基, 使  成为低秩矩阵。

实证研究表明,预训练模型的全参数微调通常可重新参数化为在低维子空间内优化,表明最优权重在这个受限的低秩子空间内变化。的低秩特性突出了基于扩展方法的参数效率基础。

另一个关键方面是缩放因子 s 。基于扩展的方法目标是确定  在  和  形成的超平面内的最大投影, 确保  尽可能与  方向对齐。给定固定的  和 , 只有一个s值能使  的方向与  方向对齐, 因此 s 值对性能的影响可能非常显著。

在参数高效微调中,有两大系列基于扩展的方法。第一系列是LoRA衍生,包括LoRA、AdaLoRA、TriLoRA、FLoRA、VeRA等。第二系列是适配器衍生,包括Adapter(H),Adapter(P),Parallel Adapter等。

在此基础之上,研究者提出了MPC框架,以进一步提升现有算法的性能。

从下图中可以看出,在不引入额外参数的情况下,MPC框架显著增强了各种PEFT方法的性能。

另外,MPC可以帮助PEFT方法实现更稳定的训练。与不使用MPC的方法相比,结合MPC的方法通常表现出更小的标准偏差。

51c视觉~合集4_数据集_05

关于这些方法的具体分析,LoRA和Adapter系列算法性能差异的原因,以及MPC框架的详细设计思路,请参阅原论文。

子空 间组合

基于组合的方法同时执行子空间重构和扩展,结合了这两种方法的原理。

此外,对于某些方法,它们既可以分类为基于重构的方法,也可以分类为基于扩展的方法,研究者也将它们分类为基于组合的方法。研究者分析介绍几种代表性的基于组合的方法,如DoRA,Spectral Adapter和SVDiff等。

关于这些方法的具体细节请参阅原论文。

论文: https://arxiv.org/pdf/2407.05417

代码: https://github.com/Chongjie-Si/Subspace-Tuning



#DGR-MIL

革新病理学:DGR-MIL多样性学习如何助力癌症诊断

本文提出了一种基于多元全局表示(DGR-MIL)的新型MIL聚合方法,所提出的模型在 CAMELYON-16 和 TCGA-肺癌数据集上大大优于最先进的 MIL 聚合模型。

Paper Link:  https://arxiv.org/pdf/2407.03575

Github:  https://github.com/ChongQingNoSubway/DGR-MIL

引言

在现代医学中,精确诊断癌症已成为提高患者生存率的关键。全片图像(WSI)技术因其能详细展现组织的微观结构而成为病理学诊断的重要工具。然而,WSI的高分辨率和庞大数据量给自动化处理带来了巨大挑战。多实例学习(MIL)作为一种弱监督学习方法,在处理此类图像数据中显示出独特优势。传统的MIL方法虽然在某些领域表现出色,但在处理WSI时常常忽视了实例之间的多样性。在开发DGR-MIL模型的过程中,主要的动机之一是解决传统多实例学习(MIL)方法在处理全片图像(WSI)中观察到的明显多样性问题。这种多样性主要体现在病变组织的异质性以及正常与病变组织间的显著区别上。以下是详细探讨这些动机和观察到的多样性:

1.组织的异质性

在全片图像中,即使是同一病变类型的组织,其表现形式也可能因人而异,甚至在同一患者的不同区域中也会有所不同。例如,肿瘤组织在形态、大小、颜色和纹理上都可能表现出高度的多样性。这种异质性使得传统的基于单一或少数特征的分类方法难以准确识别和分类所有相关实例。

2.实例间的多样性

在MIL的背景下,每个“实例”(即WSI中的图像块)可能代表了不同的组织类型,包括健康组织和各种程度的病变组织。这些实例之间的多样性不仅体现在它们的视觉特征上,还体现在它们对最终诊断结果的贡献度上。传统MIL方法往往忽略了实例间这种内在的差异性,从而可能导致信息的丢失或过度简化。

3.正负实例的界限模糊

在WSI中,正实例(包含病变的图像块)和负实例(正常组织图像块)之间的界限可能并不总是明显。肿瘤边缘区域的图像块可能同时包含肿瘤细胞和正常细胞,这为MIL方法的实例分类增加了复杂度。有效地处理这种边界上的模糊性是提高诊断准确性的关键。

51c视觉~合集4_权重_06

如图所示,我们使用率失真定理去量化不同类包的多样性还有他们直接的差异。

DGR-MIL模型介绍

DGR-MIL(Diverse Global Representation in Multiple Instance Learning)模型是一种先进的多实例学习方法,专为全片图像(WSI)的分类任务设计,特别是在病理学中用于癌症检测。该模型的核心创新在于其对实例间多样性的强调和全局向量的使用,以改善传统MIL方法在处理具有高度异质性特征的医学图像时的性能限制。

51c视觉~合集4_权重_07

DGR-MIL方法的关键组件

1. 全局向量的引入

在DGR-MIL中,全局向量充当整个图像包(WSI中的所有块)的代表,捕捉关键的信息和特征。这些向量是可学习的,意味着它们会在训练过程中不断更新,以更好地代表和总结WSI中的关键特征。全局向量的主要作用是为模型提供一种机制,通过与实例(即图像块)的相互作用来识别哪些实例最具有代表性和信息性。

2. 跨注意力机制

DGR-MIL模型采用了跨注意力机制,这是一种修改版的自注意力机制,允许模型不仅考虑实例内的特征,而且还可以评估实例与全局向量之间的关系。在这种设置中,全局向量作为查询(query),实例特征作为键(key)和值(value),模型通过计算它们之间的相互作用来确定每个实例的重要性。这种机制特别适用于处理WSI,因为它允许模型在巨大的实例空间中有效地捕捉关键区域,而不必牺牲计算效率。

3. 正向实例对齐和多样性学习

为了进一步提升全局向量的效用和精确性,DGR-MIL实施了正向实例对齐机制。这一机制鼓励全局向量向正实例(例如,包含肿瘤的图像块)靠拢,从而使得模型在进行分类决策时更加关注于这些关键实例。此外,多样性学习是通过引入一个基于确定性点过程(DPP)的多样性损失来实现的,这有助于确保全局向量之间保持足够的区分度,从而覆盖更广泛的实例特征空间。

51c视觉~合集4_权重_08

51c视觉~合集4_正则化_09

行列式点过程(DPP, Determinantal Point Process)是一种概率模型,用于模拟具有排斥性(即元素间倾向于互相排斥而不是聚集在一起)的随机点集的分布。在机器学习和数据分析中,DPP常用于确保从数据集中选出的样本或特征集合具有高度的多样性。DPP在DGR-MIL模型中的应用主要是用来增强全局向量的多样性,以更好地捕捉和表示数据中的复杂和多变特征。

51c视觉~合集4_正则化_10

51c视觉~合集4_权重_11

在DGR-MIL模型中,DPP用于确保学习到的全局向量尽可能地多样化。具体来说,模型通过最大化全局向量间相似度矩阵的行列式来实现这一点。这种方法可以形象地理解为通过推动全局向量在向量空间中尽可能地“分开”来减少它们之间的冗余,从而能够覆盖更广泛的特征空间,提高模型对各种病理特征的捕捉能力。

在DGR-MIL中实现DPP的一个关键步骤是定义一个多样性损失函数,该函数基于全局向量的Gram矩阵(即向量之间的内积矩阵)。多样性损失可以表达为Gram矩阵行列式的负对数。优化这个损失函数将导致模型倾向于选择彼此尽可能正交(即无关)的全局向量。这样不仅增加了向量间的多样性,还有助于模型捕捉和区分数据中的不同模式和结构。同时这个loss只拥有线性复杂度。

51c视觉~合集4_正则化_12

目标函数

51c视觉~合集4_数据集_13

研究成果与实验验证

在CAMELYON-16和TCGA肺癌数据集上的实验结果表明,DGR-MIL在癌症组织分类任务中的性能超过了多个现有的先进模型。模型的成功部分得益于其能够有效利用WSI中实例的多样性,提高了对复杂病理图像的诊断准确率。实验中,DGR-MIL展示了其优越的特征提取能力和更高的分类精度。

51c视觉~合集4_正则化_14

案例研究

通过具体的病例分析,可以看到DGR-MIL如何在实际的病理图像中定位并识别癌症组织。图像分析结果清晰地展示了模型如何区分正常组织和癌变组织,尤其是在边界区域处理上的优势。这对于早期发现和诊断癌症至关重要。

51c视觉~合集4_正则化_15

结论与展望

DGR-MIL模型的提出为WSI的自动化分析开辟了新的可能性,特别是在处理高异质性的癌症组织时。未来的研究将进一步优化模型结构,提高其在更广泛数据集上的泛化能力。此外,我们也期待该技术能够在临床应用中发挥更大的作用,助力医生做出更准确的诊断。



#25种正则化方法

训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。本文分析了过去几年发展起来的几种正则化方法,显示了不同CNN模型的显著改进。

一些图像处理任务,如图像分类和目标检测,已经通过使用卷积神经网络(CNN)性能得到了显著的改进。像ResNet和EfficientNet一样,许多架构在创建时已经在至少一个数据集上取得了出色的结果。训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。这项工作分析了过去几年发展起来的几种正则化方法,显示了不同CNN模型的显著改进。这些工作分为3个主要领域:

  • 第一:是“数据正则化”,其中所有的方法都专注于对于输入数据的更改
  • 第二:是“结构正则化”,主要是修改神经网络或核函数生成特征映射的过程
  • 最后:是“标签正则化”,主要是对给定输入的标签进行转换和修正
1 简介 1.1 背景说明

卷积神经网络已经在一些与计算机视觉相关的任务上取得了相当不错的结果,如图像分类和目标检测。这种成功可以用卷积神经元的工作原理来解释:它根据图像的空间属性来突出给定的特征。浅层网络注意是归纳一些形状或者纹理特征;然而,更深层次的网络可以检测出更复杂更抽象的特征,比如整个物体或人脸。如今,从生物识别到疾病检测,很难找到其他没有CNN的计算机视觉技术。

关于CNN的一个关键问题是如何对卷积核进行堆叠?以在给定的任务上实现最佳的结果。在几个不同的任务上使用相同的基本架构是很普遍的,只需要改变输出。例如,EfficientNet是一种用于图像分类的神经网络,它也被用于EfficientDet体系结构来处理目标检测任务。

该体系结构可能是计算机视觉模型的核心部分;然而,在开始训练之前还有其他相关的要点。例如,优化技术可能会影响最终的性能。即使是kernel的初始化方法都有可能会影响模型最终的性能。

本研究集中讨论在这些可能影响最终性能因素的一个方面:正则化

根据所使用的正则化策略,一些架构可以在最终结果上获得相关的增益。使用良好的正则化方法的一个重要方面是,它不会影响最终模型的性能。这意味着,独立于使用或不使用一个正则化方法,模型的推理计算成本是相同的。然而,在某些情况下,它可以影响训练阶段的性能,使用少量的计算开销或训练周期。无论如何,产出的结果通常是可以补偿这一成本的。

1.2 为什么正则化方法有效?

CNN通常用于计算机视觉任务,如图像分类和目标检测,以创建像人类视觉一样强大的视觉模型。如果考虑到可用的信息数量,很明显,训练任务需要更多数据可变性。考虑到一个健康的大脑和眼睛正常的人,不考虑睡觉的时间,平均每天保留大约16个小时的新信息。

即使考虑到像ImageNet这样的巨大数据集,与人类大脑通过眼睛接收到的数据数量相比,可用的图像数量也是最小的。这种新数据的不可用性可能会导致一种称为过拟合的情况,即模型学习如何很好地表示训练数据,但它不能有效地处理新信息,即测试数据。这种情况通常发生在模型在可用的训练信息中进行了详尽的训练时,而它不能很好地扩展到其他新信息中。

作为一个人工神经网络,神经网络的训练步骤可以描述为一个优化问题,目标是训练得到一个合适的权值;假定给一个输入和损失函数,可以转换期望的信息输出最低可能的误差。实现这一目标的一种方法是最小化以下功能:

51c视觉~合集4_权重_16

其中|.  为Frobenius norm,  为输入数据,  和  分别表示权重 矩阵和目标标签。Frobenius norm增加了  和  之间的相似性。

这种解释有一个主要优点:这个公式可以通过矩阵分解进行优化,产生X的结构化分解。然而,只有当W或  固定在优化两个矩阵时,将原始方程转换为非凸公式时,才能实现全局最小值。如果矩阵分解为矩阵近似,可以解决这个问题:

51c视觉~合集4_权重_17

其中,目标是估计矩阵A,最终得到一个凸优化,这意味着它有一个全局最小值,通过梯度下降算法可以找到。当使用正则化时,这个方程变为:

51c视觉~合集4_权重_18

其中,描述了基于A的正则化函数,而λ是设置正则化函数对目标函数的影响程度的标量因子。正则化方法的一个关键方面,独立于训练阶段的工作,是为了防止模型过拟合。它通过增加CNN不同阶段的数据的可变性来操作。当处理图像时,最直接的方法是随机改变图像,比如旋转和翻转。虽然这种类型的正则化工作得很好,但应该考虑到一些问题。例如,一些转换可能会将图像扭曲成分类中的另一个现有类。更直接的例子是MNIST数据集上的基线图像分类:如果旋转太多,输入“6”可能会转换为“9”,导致模型学习错误的信息。

1.3 正则化和标准化

机器学习中的一个普遍问题是调整给定模型的参数,使其对训练数据和新的数据能够有更好的鲁棒性。旨在减少不属于训练集的数据上的误差的算法的集合被称为正则化技术。

标准化和正则化技术的一个主要区别是,正则化在训练期后不再使用,而标准化保留在模型之中。例如,Cutout和MaxDropout在推理期间没有被执行,但是Batch Normalization在推理时需要执行。

1.4 正则化主要用在哪里?

尽管大多数作品都应用于输入,但也有很多研究致力于内部结构和标签层。图1描述了本次调查中科学工作的比例。

51c视觉~合集4_正则化_19

图1

大约44%的工作依赖于对输入的正则,其中最著名的是数据增强策略。CNN输入中参数和结构的容易改变可以解释如此多的工作量。图像处理和计算机视觉驱动的应用程序在处理深度学习时仍然发挥着重要的作用。

第二种最常见的正则化方法是那些对模型的内部结构进行正则的方法。Dropout为这一研究领域的进展做出了很大的贡献。一些作品主要是基于Dropout进行的改进,当然其中也有一些是全新的方法。

1.5 正则化方法的缺点

第一个是标签不随输入或在神经网络的中层直观地改变。在这2个级别中执行变化是更自然的,因为在视觉上更容易理解在训练和推理过程中发生了什么。然而,要解释执行标签更改时会发生什么就比较困难了。尽管最初的研究认为它防止了过拟合问题,但它未能解释为什么会避免这种情况。

另一种解释是对大多数方法缺乏数学解释。幸运的是,一些技术,如Dropout和Mixup,对它们的内部机制提供了有趣的见解。

最后,最好要记住,开发机器学习领域最关键的步骤之一是创建标签可靠的数据集。虽然本文关注的是正则化策略,但值得记住,最终,与标签的组合方式上的突破可能会促进更强大的系统。因此,强调更多与标签正则化相关的工作值得研究。

2 正则化方法大集结

2.1 Cutout

Cutout是一种直接而强大的数据增强的技术。在训练过程中,它在输入神经网络之前随机去除图像的区域。Cutout作者详尽地分析了CIFAR-10和CIFAR-100数据集中被移除区域的理想大小。

51c视觉~合集4_权重_20

图3 Cutout

理想的大小根据每个类的实例的数量和给定数据集的类的数量而变化。例如,在CIFAR-10数据集上的最佳结果是通过删除一个大小为16×16的patch来完成的,而对于CIFAR-100,关于最佳结果的区域大小是8×8。对于SVHN数据集,通过使用网格搜索找到了最佳的crop大小为20×20。对于STL-10数据集,最佳结果的crop大小为32×32。

2.2 RandomErasing

RandomErasing是在Cutout技术的基础上进一步的发展。Cutout是对图像的随机裁剪,而RandomErasing关注的是在空白空间中去除并随机添加信息,例如噪声。与Cutout不同,RadomErasing并不是每次都删除图像的一部分。在这项工作中,作者在3种不同的分类数据集(CIFAR-10,CIFAR-100和Fashion-MNIST)上评估了该方法,用于目标检测的VOC2007数据集,以及用于ReID的三种不同的CNN架构(IDE, TriNet和SVDNet)。

51c视觉~合集4_数据集_21

图4 RandomErasing

对于分类任务,4种不同的架构被用于评估目的:ResNet、ResNet with pre-activation、Wide Residual Networks和ResNeXt。在所有情况下,RandomErasing方法完成了相关的误差减少(至少0.3%)。

对于目标检测任务,当只使用该数据集中的可用数据训练模型时,平均精度(mAP)提高了0.5,当训练数据与VOC2012训练数据集结合时,平均精度(mAP)提高了0.4。图4显示了随机擦除是如何工作的。

2.3 AutoAugment

AutoAugment试图找出给定数据集上的哪些transformations可以提高模型的准确性。它使用5个不同的transformations为给定策略创建一个搜索空间,这些transformations由2个附加参数控制:给定更改概率(Cutout,SamplePairing,Shear X/Y,Translate X/Y,Rotate,AutoContrast,Invert,Equalize,Solarize,Posterize,Contrast,Color,Brightness以及Sharpness)和变化幅度。

51c视觉~合集4_权重_22

图5 AutoAugment

然后将这些策略输入一个“child”模型,该模型是一个用部分训练数据集训练的CNN。这个CNN的准确性被告知一个“控制器”模型,它是一个循环神经网络(RNN)。这个RNN输出一个给定策略在未来被使用的概率。在控制器训练过程的最后,使用5个最佳策略(每个策略有5个子策略)来训练最终的模型,用于评估数据集。使用这些生成的策略和子策略使得AutoAugment在CIFAR-10、CIFAR-100、SVHN和ImageNet数据集上达到了最先进的结果。

这种方法的一个巨大优势是这些策略在不同数据集之间的可迁移性:在最初的工作中,为ImageNet找到的策略被用来训练其他5个不同的数据集,即使没有在这些数据集上训练AutoAugment,也能显著改善结果。这种方法的一个缺点是用来训练控制器模型的时间:例如,对于ImageNet数据集,它需要大约15000个小时的处理,这在一些情况下可能是不切实际的。Fast AutoAugment的目标就是通过一种新的算法来克服这一瓶颈,在产生相似结果的同时,显著减少搜索过程所需的时间。

2.4 PBA

Population Based Augmentation(PBA)不仅展示了一种新的增强算法,而且展示了调度策略而不是固定策略,改进了以往研究的结果。

51c视觉~合集4_数据集_23

图6 PBA

在每3步中,它改变了一半的策略,即1/4的权重变化,另外1/4的超参数变化。虽然自动增强意味着在CIFAR-10数据集上的训练开销为5000个小时,但PBA只增加了5个小时。

2.5 RandAugment

如前所述,寻找最佳数据增强的方法的一个巨大瓶颈涉及到它们的计算负担,因为它可能比自己的神经网络训练需要更长的时间。另一个问题与在搜索过程中发现的策略有关,这可能会导致次优策略,即它确实改善了局部的结果;然而,它并不会带来最好的全局结果,因为它使用了一个较浅的神经网络,并假设这个规则可以应用于任何其他的,更深的架构。

51c视觉~合集4_正则化_24

图7 RandAugment

51c视觉~合集4_正则化_25

14个最常见的策略

RandAugment使用了在之前的工作中发现的14个最常见的策略,并在训练期间对每个策略的大小进行搜索,从而消除了初步探索步骤的需要,并根据当前的训练CNN定制数据放大。结果表明,该方法不仅比以往的方法更快,而且显著改善了结果。

2.6 Mixup

训练CNN的一种可能性是,Mixup来自训练数据集中的2幅图像,并迫使模型可靠地确定这种Mixup图像属于哪一类。然而,如何为这种Mixup生成编码标签并不普遍。提供这个新的输入/输出训练对可以让模型从损坏的输入中学习更多的特征。最初的工作表明,使用这种方法的模型不仅可以改善图像分类任务的结果,而且可以改善语音识别、生成对抗网络的稳定、表格数据集等问题的结果。图5演示了Mixup的工作原理。

51c视觉~合集4_权重_26

图5 Mixup

2.7 CutMix

另一种混合输入和标签以改善结果的策略是CutMix。与Mixup不同,CutMix会替换给定输入中的整个区域,并通过给予与每个类使用的区域相同的权重来更改标签。例如,如果一只猫的图像被30%的图像替换为一个飞机的图像,则该标签被设置为70%的猫和30%的飞机。这一策略的结果有了显著的改善。通过使用绘制Grad-CAM可以观察到生成的Heatmap更好地突出了更准确地定义感兴趣目标的区域。

51c视觉~合集4_正则化_27

图6 CutMix

2.8 CutBlur

一些针对图像处理的深度学习任务,如图像分类或目标检测,可以通过使用数据增强来提升模型性能。一些工作,如AutoAugment、Cutout和RandomErasing可以通过对训练图像应用一些transformations来显著改善结果。然而,对于超分辨率(SR)任务,文献中缺乏提出正则化技术来明确地处理这个问题的工作。

51c视觉~合集4_正则化_28

图7 CutBlur

尽管可以使用上述技术并可能改善结果,但它们并不是通过手工设计来处理SR问题的。到目前为止,唯一发现的方法是CutBlur,它的工作原理是用来自类似区域的低分辨率(LR)版本替换高分辨率图像(HR)上的给定区域。作者表明,CutBlur有助于模型在SR问题上更好的推广,但同样的技术可以用于重建被高斯噪声退化的图像。

2.9 BatchAugment

训练cnn的一个重要超参数与mini-batch size有关,mini-batch size用于计算反向传播中使用的梯度。该超参数通常采用GPU的上限,这对于提高训练收敛速度至关重要。BatchAugment工作巧妙地利用了这个限制。它不只是使用来自数据集的不同实例来满足整个内存,而是使用默认的数据扩展设置来考虑内存限制的一半,然后复制具有不同数据扩展可能性的所有实例。这听起来像是一个简单的技巧;然而,结果表明,使用这种方法的神经网络在最终结果上有显著的改善。另一点是,通过复制增强图像,分析表明需要更少的时间点来实现收敛。

2.10 FixRes

图像分辨率可能会影响训练周期效率和最终的分类精度。例如,对EfficientNet的研究通过将输入大小作为影响最终结果的参数之一,从而强调了这一想法。然而,如果一个模型被训练,例如,分辨率为224×224,测试集的推理应该使用一样的图像分辨率。

51c视觉~合集4_正则化_29

图8 FixRes

FixRes提出的工作强调了测试集的分辨率应该高于用于训练的分辨率。这种变化不仅产生了一个更可靠的神经网络,而且比传统方法训练得更快,因为它需要更少的计算量,因为用于这种目的的图像比用于推理的图像要小。该方法表明,在使用迁移学习时,它可以改善在其他数据集上的结果。

2.11 Bag-of-Tricks

这里分析的工作的一个关键点是,它们经常没有将任何其他正则化方法与它们当前的研究结合起来。因此,很难知道两个正则化器是如何相互影响的。Bag-of-Tricks研究通过结合几种已知的正则化方法,如Mixup、Label Smoothing和Knowledge Destilation。消融研究表明,如果应用一定的方法,最终结果可以显著改善。例如,使用这种方法组合的MobileNet在ImageNet数据集中提高了近1.5%的结果,这是一个显著的收益。然而,该研究缺乏对层间正则化方法的深入评价,如Dropout。

3 结构正规化

正则化方法可以以不同的方式工作。在本文中,将结构正则化定义为在训练过程中改变权值而不改变输入kernel值的方法。本节分为两个主要部分:第一部分介绍了Dropout如何工作和它的一些变体的更深入的描述,如SpatialDropout和DropBlock。在第二部分中,描述了其他旨在执行其他张量操作的方法,如Shake-shake Regularization。

3.1 Dropout and variants

Dropout被认为是一种简单但功能强大的正则化器,旨在去除一些神经元,从而迫使整个系统学习更多的特征。最初的工作表明,它不仅可以应用于cnn,还可以应用于多层感知器(MLPs)和受限玻尔兹曼机(rbm)。

51c视觉~合集4_权重_30

图9 Dropout

在训练阶段的每一步,通过伯努利分布来估计每个神经元的dropping out概率,从而在训练过程中增加了一些随机性。最初的研究表明,被dropping out的神经网络可以比标准的神经网络更好地进行推广。

3.2 MaxDropout

Dropout随机去除训练阶段的神经元,Maxdropout则根据神经元的激活情况去激活神经元。它首先将张量s值归一化,然后将每一个大于给定阈值p的输出设置为0,因此这个值越高,它就越有可能被禁用。

51c视觉~合集4_正则化_31

图10 MaxDropOut

最初的工作表明,它可以改进在CIFAR-10和CIFAR-100数据集上的ResNet18结果,而且它在WideResNet-28-10模型上的性能也优于Dropout。

3.3 DropBlock

DropBlock表明,去除给定张量(即特征图)的整个区域可以帮助模型更好地泛化。通过使用ResNet-50和AmoebaNet-B模型对图像进行分类任务,使用retinanet模型对物体进行检测,使用ResNet-101模型对图像进行分割,结果表明该模型比Dropout等内部正则化算法对结果有更好的改善。

51c视觉~合集4_数据集_32

图11 DropBlock

DropBlock应用在CNN的每个feature map上,从一个小的比例开始训练,然后慢慢的增加它的值。它的实验显示了ImageNet数据集上的相关结果,当使用ResNet-50时,Baseline精度提高了近2%,打败了其他正则化方法,如Cutout和AutoAugment,使用AmoebaNetB时,基线精度提高了约0.3%。在目标检测任务中,retavanet模型在AP度量上改进了1.5%以上。

3.4 TargetDrop

注意机制可以被整合到一个给定的正则化器中,这样它就可以在适当的区域发挥作用。例如,TargetDrop将这种机制与DropBlock结合在一起。在训练过程中,它允许整个系统去除给定通道上的大多数有区别的区域。结果表明,这种方法不仅比DropBlock获得了更好的结果,而且,通过使用grade-cam,在决定给定输入属于哪个类的区域中显示了更多的一致性。

51c视觉~合集4_正则化_33

图12 Dropout,DropBlock,TargetDrop

3.5 AutoDrop

虽然有效,但Dropout缺乏选择掉哪个神经元的空间信息。DropBlock的策略是将整个随机区域放在隐藏层上,而不是单一的神经元,从而迫使CNN学习更好的空间信息。然而,Drop方法是手动设计和固定的,如果这些模式可以在训练中学习,这可能会得到改进。

51c视觉~合集4_数据集_34

图13 AutoDrop

AutoDrop迫使CNN根据训练信息学习最佳设计,使用控制器逐层学习最佳滴模式。CIFAR-10和ImageNet的结果表明,这些模式改善了结果,并可以在数据集之间传输。

3.6 LocalDrop

Rademacher复杂性被用来重新定义Dropout和DropBlock。通过对该问题进行广泛的数学分析,提出了一种新的两阶段正则化算法。该方法虽然耗时,但针对图像分类的不同CNN架构取得了相应的改进。CIFAR-10的结果表明,LocalDrop方法至少可以改善结果0.15%,比最佳结果提高了近0.6%。CIFAR-100的结果改善了0.4%;然而,在这种特定的情况下,在反向传播时删除权重的变化最终会得到略微更好的结果,提高了0.5%。除了改进之外,该方法只适用于3分支ResNet,很难直接比较其他方法。

3.7 Shake-Shake

在这些体系结构上强制正则化的一种方法是在训练期间为残差连接的每个分支赋予不同的权重。最初的ResNets的工作原理是在每个分支上添加权重,没有任何区别。在训练过程中,Shake-shake作用于3个分支的ResNets,在前传时改变每个分支的乘因子,在后传时乘以不同的值,从而改变每个分支对最终结果的影响。对于推理,它将每个分支乘以0.5倍。

3.8 ShakeDrop

解决Shake-shake问题的一个改进是ShakeDrop。它不仅适用于ResNeXt架构,也适用于ResNet、Wide ResNet和PyramidNet。为了实现这样的结果,ShakeDrop改变了由Shake-shake提出的配置。这些分支上的Shake组合显示,ShakeDrop有更好的性能,不会被困在局部极小值上。结果表明,该方法可以比前面提到的每一种体系结构获得的原始结果更好。

3.9 Manifold Mixup

神经网络通常被概括为一个函数,给定输入数据和一组可学习参数,输出相应的目标值。Manifold Mixup的作用类似于Mixup,然而,它在CNN的任何内部层中运行,而不仅仅是在输入层。深度神经网络可以被认为是一组较小的神经网络,每一个都输出一些期望的特征;因此,如果所有的子网都运行良好,则可以认为最终的结果是良好的。

Yang等提出了一种新的损失函数设计策略:首先通过前馈过程计算传统的小批量损失。然后,它从原始网络生成子网络,然后通过使用不同的图像变换提供相同的小批处理,为每个模型计算一个损失。最后,将传统损失与各个子网络的损失相加,计算出最终损失。该技术在不同的数据集和CNN架构中显示了巨大的潜力改进。

3.10 其他方法

在过去的几年里,残差连接的使用,首先在众所周知的神经架构ResNet中引入,并对其进行了进一步的改进,在几个任务上取得了相关的成果。后来的研究表明,这种成功是由于创建了一种名为“identity mapping”的结构,它是对原始输入的重建。残差连接迫使模型学习如何构造这些结构。

4 标签正则化

有方法使用Label Smoothing作为其正则化策略的一部分。例如,Mixup根据2个不同图像之间的插值来平均标签的值。同样的规则也适用于Manifold Mixup技术;然而,数据插值是在层之间计算的,并使用相同的微积分来重置标签值。

另一个使用标签转换的正则化器是Cutblur。在本例中,使用了反式格式,在训练期间,可以将标签与输入倒置,使输入作为标签,模型将按照预期收敛。这一预期结果的原因是由于低分辨率和高分辨率图像的切割尺寸,这是没有预先定义的。这意味着输入可以是高分辨率图像中的低分辨率图像,标签可以是高分辨率图像中的低分辨率图像。因此,将标签和输入倒排仍然是有意义的。

其他方法也可以通过使用Manifold Mixup来改进它们的结果。例如,Cutout从输入中删除部分,所以根据crop size“remove”部分标签也是有意义的。假设crop size是图像的25%,因此活动类可以从1下降到0.75。同样的策略也适用于RandomErasing。在训练过程中丢弃神经元的方法,如Dropout,可以在训练过程中将热标签的值降低到相同的范围。

4.1 Label Smoothing

在一般的分类任务中,使用热编码标签是普遍存在的。从2015年开始,Label Smoothing提出了一种在标签编码过程中的正则化技术,通过修改hone-hot表示的每个位置上的值。

Label Smoothing的工作原理是防止了2个主要问题。

  • 首先,过拟合问题
  • 其次,对于不确定结果的过度自信问题

根据作者论述,通过使用编码标签上的平滑因子,应用在向量上的Softmax函数产生更接近平滑编码向量的值,限制了反向传播算法中使用的值,并根据类产生更真实的值。

4.2 TSLA

使用标签平滑的一个困难是找出ϵ的什么值(即平滑因子)是理想的,无论是对于一般的还是对于特定的数据集。最初的工作表明,ϵ=0.1是极好的条件;然而,两阶段标签平滑(TSLA)表明,一般来说,梯度下降结合Label Smoothing技术只能提高结果,直到一定的训练点,之后最好将活动类的所有值设置为0和1。例如,当在CIFAR-100数据集中对ResNet18进行200个Epoch的训练时,结果表明,当使用Label Smoothing时仅仅到160个Epoch便可以获得最好的性能。

4.3 SLS

通常,很难为Label Smoothing因子定义适当的值。结构标签平滑(SLS)提出通过估计贝叶斯估计误差来计算这样的值,根据作者,这有助于定义每个实例的标签边界。实验表明,该方法在不同场合都可以克服传统的标签平滑方法。

虽然这项工作在MobileNetV2上得到了充分的评估,但它没有考虑到其他的神经网络架构。尽管一些流行的数据集被用于比较目的,例如,CIFAR和SVHN,但这项工作仅限于MobileNet-V2。

4.4 JoCor

本文提出了一种避免噪声标签对神经网络的影响的新方法。JoCoR在同一数据集上训练2个相似的神经网络,并试图关联2个不同的标签。该方法通过将2个网络的交叉熵损失加上它们之间的对比损失来计算损失,然后只使用批处理上最可忽略的损失来更新架构的参数。

作者认为,通过使用最小的值来更新参数,这2种网络都与预测结果一致,而且标签的噪声往往更小。虽然该方法是针对弱监督问题开发的,但它可以很容易地适应传统的监督问题,如数据分类,以改善结果。这种方法的缺点是使用2个神经网络进行训练,这需要更多的处理和内存。


 

欢迎大家一起 扣 ~裙研究~~ 64104075

whaosoft aiot 天皓智联