【读点论文】Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective

Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective

Abstract

  • 我们提出了一个新的数据集压缩框架,称为Squeeze , Recover和Relabel (SRe2L),该框架在训练期间解耦了模型和合成数据的双层优化,以处理不同规模的数据集,模型架构和图像分辨率,从而实现有效的数据集压缩。该方法在不同的数据集尺度上表现出灵活性,在合成图像的任意分辨率、低训练成本和高分辨率训练的内存消耗以及扩展到任意评估网络架构的能力方面表现出多种优势。

  • 在Tiny-ImageNet和full ImageNet-1K数据集上进行了大量的实验。在50 IPC下,我们的方法在Tiny-ImageNet和ImageNet-1K上实现了最高的42.5%和60.8%的验证准确率,分别比之前所有最先进的方法高出14.5%和32.9%。我们的方法也比MTT在速度上快了大约52倍(ConvNet-4)和16倍(ResNet-18),在数据合成过程中内存消耗更少,分别为11.6倍和6.4倍。我们的代码和压缩数据集的50,200 IPC与4K恢复预算可在链接 VILA-Lab/SRe2L: Large-scale Dataset Distillation/Condensation, 50 IPC (Images Per Class) achieves the highest 60.8% on original ImageNet-1K val set. (github.com)

  • 研究动机:数据压缩或蒸馏任务引起了人们的广泛关注。通过将大规模数据集压缩成具有代表性的紧凑子集,数据压缩方法有助于实现模型的快速训练和数据的高效存储,同时保留原始数据集中的重要信息。数据压缩在研究和应用中的重要性不可低估,因为它在处理大量数据的过程中起着关键作用。通过采用先进的算法,数据压缩取得了显著的进展。然而,现有解决方案主要擅长压缩低分辨率的小数据集,这种局限性是因为在双层优化过程中执行大量未展开的迭代会导致计算开销巨大

  • 论文地址:[2306.13092] Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective (arxiv.org)

  • 传统的模型蒸馏是为了得到一个更加紧凑的模型,同时保证模型性能尽可能得高。与之不同,数据集蒸馏任务关注于如何得到一个更紧凑同时更具表达能力的压缩后的数据集,数据样本相比原始数据集会少很多(节省从头训练模型的计算开销),同时模型在该压缩后的数据集上训练,在原始数据验证集上测试依然可以得到较好的精度

  • 数据集蒸馏任务的主要难点在于如何设计一个生成算法来高效可行地生成需要的样本,生成的样本需要包含 / 保留原始数据集中核心的信息。目前比较常用的方法包括梯度匹配、特征匹配、轨迹匹配等等,但是这些方法的一个共同缺点就是没法 scale-up 到大规模数据集上。比如,由于计算量和 GPU 显存的限制,无法蒸馏标准的 ImageNet-1K 或者更大的数据集。计算量和 GPU 显存需要过大的主要原因在于这些方法生成过程需要匹配和保存的信息过多,目前很多 GPU 显存没法容纳所有需要匹配的数据信息,导致这些方法大多数只适用于较小的数据集。

  • 针对这些问题,新论文通过解耦数据生成和模型训练两个步骤,提出了一个三阶段数据集蒸馏算法,蒸馏生成新数据过程只依赖于在原始数据集上预训练好的模型,极大地降低了计算量和显存需求

Introduction

  • 在过去的几年中,数据冷凝或蒸馏的任务在计算机视觉领域引起了极大的兴趣。通过将大型数据集提炼成具有代表性的紧凑子集,数据凝聚方法可以实现快速训练和简化存储,同时保留原始数据集的基本信息。数据凝聚在研究和应用中的重要性不可低估,因为它在多个领域的大量数据的有效处理和处理中起着至关重要的作用。通过元模型匹配、梯度匹配、分布匹配、轨迹匹配等复杂算法的实现,数据凝聚 data condensation 取得了显著进展

  • 然而,先前的解决方案主要擅长于提取小型数据集,如MNIST、CIFAR、Tiny-ImageNet、低分辨率的downscale ImageNet或ImageNet的子集。这种限制是由于在双层优化过程(包括用于模型更新的内部循环和用于合成数据更新的外部循环)中执行大量展开迭代所产生的高昂计算费用造成的。在我们的研究中,采用精心设计的解耦策略进行模型训练和合成数据更新(如下图左所示),所提出的方法能够以224×224的常规分辨率提取整个大规模ImageNet数据集,同时保持最先进的性能。

    • 在这里插入图片描述

    • 左图是ImageNet-1K在10 IPC(每类图像)下的数据合成时间与精度。模型包括ConvNet-4, ResNet-{18,50,101}。†表示参数为10M的ViT。右图是广泛使用的双层优化和我们提出的解耦训练方案的比较。

  • 值得注意的是,我们的训练/合成计算超过了先前方法的效率,即使是那些使用降低分辨率或ImageNet子集的方法。效率的比较见下表。

    • 在这里插入图片描述

    • 在Tiny-ImageNet (64×64分辨率)上使用单个RTX-4090 GPU进行所有方法的合成时间和内存消耗。时间成本表示在合成数据上使用一次迭代更新生成一张图像时的消耗(ms)。GPU内存使用的峰值被测量或转换为批处理大小为200 (1 IPC作为数据集有200个类)。

  • 为了解决与训练相关的巨大计算和内存足迹,我们提出了一个由挤压、恢复和重新标记阶段组成的三方学习范式。这种范式允许将浓缩数据合成阶段与实际数据输入解耦,以及将内环和外环优化分离。因此,它不受数据集规模、输入分辨率或网络架构大小的限制。具体而言,在初始阶段,我们将这一过程分为挤压和恢复两个阶段,以区分真实数据和合成数据之间的关系和相似性,而不是同时对真实数据和合成数据进行采样并随后进行网络处理以更新目标合成数据

  • Advantages.我们的方法具有以下优点:

    • (1)它可以在训练过程中毫不费力地处理大分辨率压缩,并且计算成本合理。

    • (2)与其他同行不同,我们可以处理相对较大的Tiny-ImageNet和ImageNet-1K数据集,使我们的方法更适合实际应用。

    • (3)我们的方法可以直接利用许多现成的包含BN层的预训练大型模型,进一步节省了训练开销。

  • 在Tiny-ImageNet和ImageNet-1K数据集上进行了大量的实验。在分辨率为224×224、IPC为50的ImageNet-1K上,该方法获得了60.8%的显著准确率,大大优于以往的所有方法。我们预计我们的研究将有助于社区对使用与真实数据解耦的合成策略进行大规模数据集凝聚的实际可行性的信心,同时保持合理的计算成本

  • Contributions.

    • 我们提出了一个新的大规模数据集压缩框架,该框架包括压缩、恢复和重新标记三个阶段的学习过程。该方法在数据合成和模型训练阶段均表现出优异的有效性、效率和鲁棒性。

    • 我们进行了彻底的消融研究和分析,包括对原始数据压缩的不同数据增强的影响,对数据恢复的各种正则化术语,以及对压缩数据集进行重新标记的不同教师替代方案。学习过程的全面规范可以为该领域的后续研究提供有价值的见解

    • 据我们所知,这是第一个能够以224×224的标准分辨率压缩完整ImageNet-1K数据集的工作,利用广泛访问的NVIDIA gpu(如3090,4090或A100系列)。此外,使用合理的训练时间和内存成本,我们的方法在完整ImageNet-1K上在IPC限制50的情况下达到了60.8%的最高准确率,大大优于之前的所有方法

  • MBZUAI 和 CMU 团队的最新工作 SRe2L 致力于解决这一问题。该工作是目前唯一实现了大规模高分辨率数据集蒸馏的框架,可以将 Imagenet-1K 原始的 1.2M 数据样本压缩到 0.05M (压缩比 1:20),使用常用的 224x224 分辨率进行蒸馏,在 ImageNet-1K 标准验证集(val set)上取得了目前最高的 60.8% Top-1 精度远超之前所有 SOTA 方法,如 TESLA (ICML’23) 的 27.9% 的精度。

  • ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点 (msn.cn)

  • 之前很多数据集蒸馏方法都是围绕样本生成和模型训练的双层优化 (bi-level optimization) 来展开,或者根据模型参数轨迹匹配 (trajectory matching) 来生成压缩后的数据。这些方法最大的局限在于可扩展性不是很强,需要的显存消耗和计算量都很大,没法很好地扩展到完整的 ImageNet-1K 或者更大的数据集上。本文作者提出了解耦数据生成和模型训练的方法,让原始数据信息提取过程和生成数据过程相互独立,这样既避开了更多的内存需求,同时也避免了如果同时处理原始数据和生成数据导致原始数据中的噪声对生成数据造成偏差 (bias)

  • 具体来说,本文提出了一种新的数据集压缩框架,称为挤压、恢复和重新标记 (SRe2L),该框架在训练过程中解耦模型和合成数据双层优化为两个独立的操作,从而可以处理不同规模的数据集、不同模型架构和高图像分辨率,以实现有效的数据集压缩目的

  • 本文在 Tiny-ImageNet 和 ImageNet-1K 数据集上进行了大量实验,并展示出非常优异的性能。本文提出的方法展示了在不同数据集规模的灵活性,并在多个方面表现出多种优势:

    • 1)合成图像的任意分辨率,

    • 2)高分辨率下的低训练成本和内存消耗,

    • 3)扩展到任意评估网络结构的能力。

Approach

  • 数据冷凝/蒸馏。数据集压缩的目的是获取一个小的合成数据集,该数据集保留了原始数据中存在的大量信息。假设我们有一个大的标记数据集 T = { ( x 1 , y 1 ) , … , x ∣ T ∣ , y ∣ T ∣ } T = \{(x_1, y_1),…, x_{|T|}, y_{|T|} \} T={(x1,y1)xTyT} ,我们的目标是学习一个小的压缩数据集 C s y n = { ( x ^ 1 , y ^ 1 ) , … , ( x ^ ∣ C ∣ , y ^ ∣ C ∣ } ( ∣ C ∣ ≪ ∣ T ∣ ) C_{syn} = \{(\hat x_1, \hat y_1),…,(\hat x_{|C|},\hat y_{|C|}\}(|C|≪|T |) Csyn={(x^1,y^1)(x^Cy^C}(CT) ,保留了原始T中的关键信息。对浓缩合成数据的学习目标为:

    • θ C s y n = a r g m i n θ L C ( θ ) , ( 1 ) \theta_{C_{syn}}=argmin_\theta L_C(\theta),(1) θCsyn=argminθLC(θ),(1)

    • 式中 L C ( θ ) = E ( x ^ , y ^ ) ∈ C s y n [ l ( ( ϕ θ C s y n ( x ^ ) , y ^ ) ) ] , y ^ L_C(θ) =E_{(\hat x,\hat y)}∈C_{syn}[l((ϕ_{θC_{syn}}(\hat x), \hat y))] ,\hat y LC(θ)=E(x^,y^)Csyn[l((ϕθCsyn(x^)y^))],y^ 是与合成数据ex对应的软标签。数据凝聚任务的最终目标是在合成数据和原始完整数据集上分别训练模型时,合成数据在原始评估集上达到一定/最小的性能差距。根据核心集 和 approximate 的定义,数据凝聚任务的目标可以表述为:

    • s u p { ∣ l ( ϕ θ T ( x ) , y − l ( ϕ θ c s y n ( x ) , y ) ∣ } ( x , y ) ~ T ≤ η , ( 2 ) sup\{|l(\phi_{\theta_T}(x),y-l(\phi_{\theta_{c_{syn}}}(x),y)|\}_{(x,y)~T}\leq\eta,(2) sup{l(ϕθT(x),yl(ϕθcsyn(x),y)}(x,y)Tη,(2)

    • 其中, η \eta η 是在合成数据和原始完整数据集上训练的模型的性能差距。因此,我们旨在通过以下方式优化合成数据Csyn:

    • a r g m i n C s y n , ∣ C ∣ ( s u p { ∣ l ( ϕ θ T ( x ) , y − l ( ϕ θ c s y n ( x ) , y ) ∣ } ( x , y ) ~ T ) argmin_{C_{syn},|C|}(sup\{|l(\phi_{\theta_T}(x),y-l(\phi_{\theta_{c_{syn}}}(x),y)|\}_{(x,y)~T}) argminCsyn,C(sup{l(ϕθT(x),yl(ϕθcsyn(x),y)}(x,y)T)

  • 将压缩数据优化与神经网络训练解耦:传统的解决方案,如FRePo、CAFE、DC,通常选择在单一训练框架内同时优化骨干网和合成数据,尽管是以迭代的方式。与这些联合方法相关的主要缺点是它们的计算负担,这是由于在每次外循环更新期间展开内循环,以及由于截断展开而导致的从真实数据到合成数据的偏差转移。本研究的目的是设计一个有效的学习框架,能够单独解耦模型训练和综合数据优化。这种方法避免了来自真实数据的信息偏差,同时提高了处理不同规模数据集、模型架构和图像分辨率的效率,从而增强了有效的数据集凝聚。我们的框架基于一个假设,即数据集中的关键信息可以在深度神经网络中得到充分的训练和保存

  • 本文提出一个三阶段数据集蒸馏的框架:

    • 第一步是将整个数据集的核心信息压缩进一个模型之中,通过模型参数来存储原始数据集中的信息,类似于我们通常进行的模型训练

    • 第二步是将这些高度抽象化的信息从训练好的模型参数中恢复出来,本文讨论了多种不同损失和正则函数对于恢复后图像的质量以及对数据集蒸馏任务的影响

    • 第三步也是提升最大的一步:对生成的数据进行类别标签重新校准。此处作者采用了 FKD 的方式,生成每个 crop 对应的 soft label,并作为数据集新的标签存储起来

    • 在这里插入图片描述

Decoupling Outer-loop and Inner-loop Training

  • 受DeepDream、Inverting Image和无数据知识转移的最新进展的启发,我们提出了一种解耦方法来分离数据集凝聚固有的传统双层优化。这是通过一个三重过程来实现的,将其重新制定为一个单级学习过程。

  • stage -1 Squeeze:在此阶段,我们的目标是从原始数据集中提取相关信息,并将其封装在深度神经网络中,评估各种数据增强技术、训练策略等的影响。深度神经网络通常由多个参数函数组成,这些参数函数将高维原始数据(如图像的像素空间)转换为相应的低维潜在空间。我们可以利用这一属性将原始数据抽象到预训练模型中,然后以更集中的方式重建它们,类似于DeepDream和Inverting Images。值得注意的是,这个阶段的目的是从原始数据集中提取和封装关键信息。因此,导致性能增强的过度数据增加不一定会产生期望的模型。这种方法不同于以前的解决方案,即从原始大规模数据集T和可学习的小型合成数据集c中采样两个数据批次。学习过程可以简单地作为原始数据集上具有合适训练配方的常规模型训练过程:

    • θ T = a r g m i n θ L T ( θ ) \theta_T=argmin_\theta L_T(\theta) θT=argminθLT(θ)

    • 其中 L T ( θ ) L_T (θ) LT(θ) 通常使用交叉熵损失,如 L T ( θ ) = E ( x , y ) ∈ T [ y l o g ( p ( x ) ) ] L_T (θ) = E_{(x,y)∈T} [y log (p (x))] LT(θ)=E(x,y)T[ylog(p(x))]

    • 在ViT中启用BN层用于恢复过程:与分布匹配相反,分布匹配在采样嵌入空间中对齐原始和合成训练数据的特征分布,从而允许使用随机初始化的网络,我们的匹配机制仅在批归一化(BN)层上执行,利用其统计属性,类似于无数据知识转移。与每次迭代中对单个批次执行匹配过程的特征匹配解决方案不同,参考BN统计数据是在整个数据集上计算的,提供了与原始数据集更全面和更具代表性的对齐。

    • 我们的实验经验证明,bn匹配可以显著优于特征匹配方法。BN层在ConvNet中常用,但在ViT中不存在。为了在我们提出的数据凝聚方法中同时利用ConvNet和ViT,我们设计了一个BN-ViT,它用BN层替换所有LayerNorm,并在前馈网络的两个线性层之间添加额外的BN层,如[Leveraging batch normalization for vision transformers]中所使用的。这标志着将数据凝聚体系结构的适用性从ConvNets扩展到vit的第一个实例。

  • Stage-2 Recover : 这一阶段包括利用类标签、正则化项和BN轨迹对齐将保留的信息重建回图像空间。与批量特征分布或综合参数分布不同,我们只跟踪原始数据集衍生的BN统计数据的分布。BN与预测概率分布的配对将优化过程限制在一个奇异水平,从而显著增强了可扩展性。通过对最终分类和中间BN统计量(均值和方差)进行对齐,合成图像被迫封装了原始图像分布的一部分。这一阶段的学习目标可制定如下:

    • a r g m i n C s y n , ∣ C ∣ l ( ϕ θ T ( x ^ s y n ) , y ) + R r e g argmin_{C_{syn},|C|}l(\phi_{\theta_T}(\hat x_{syn}),y)+R_{reg} argminCsyn,Cl(ϕθT(x^syn),y)+Rreg

    • 其中 R r e g R_{reg} Rreg 是正则化项。 ϕ θ T ϕ_{θ_T} ϕθT 是在第一阶段预训练的模型,它将在此阶段冻结,我们仅将 x ^ s y n \hat x_{syn} x^syn 优化为单级训练过程。我们讨论了三种可以使用的正则化器,并在我们的实验中提供了它们的消融。前两个正则化器分别是[Understanding deep image representations by inverting them]中提出的图像先验 l 2 l_2 l2 正则化器和总变分(TV):

    • R p r i o r ( x ^ s y n ) = α t v R T V ( x ^ s y n ) + α l 2 R l 2 ( x ^ s y n ) R_{prior}(\hat x_{syn})=\alpha_{tv}R_{TV}(\hat x_{syn})+\alpha_{l_2}R_{l_2}(\hat x_{syn}) Rprior(x^syn)=αtvRTV(x^syn)+αl2Rl2(x^syn)

    • R l 2 = ∥ x ^ s y n ∥ 2 R_{l2} =∥\hat x_{syn}∥_2 Rl2=x^syn2 时,该正则化器鼓励图像保持在目标区间内而不是发散。 R T V = ∑ i , j ( ( x ^ i , j + 1 − x ^ i j ) 2 + ( x ^ i + 1 , j − x ^ i j ) 2 ) β 2 R_{TV} = \sum_{i,j}((\hat x_{i,j+1}−\hat x_{ij})^2 + (\hat x_{i+1,j}−\hat x_{ij})^2)^{\frac β 2} RTV=i,j((x^i,j+1x^ij)2+(x^i+1,jx^ij)2)2β ,其中β用于平衡图像的清晰度,去除“尖峰”并使合成数据平滑。然而,这对于数据集压缩来说是不必要的,因为我们更关心的是信息恢复。

    • 使用BN一致性学习压缩数据:DeepInversion利用特征分布正则化项来提高生成图像的质量。在这里,我们也利用这个属性作为我们的恢复损失项。可表述为:

    • 在这里插入图片描述

    • 式中,l为BN层指数, µ l ( x ^ ) µ_l(\hat x) µl(x^) σ l 2 ( x ^ ) σ^2_l (\hat x) σl2(x^) 分别为均值和方差。 B N l R M BN^{RM}_l BNlRM B N l R V BN^{RV}_l BNlRV 是预训练模型在第 l l l 层的运行均值和运行方差,对它们进行全局计数。

    • Multi-crop Optimization: RandomResizedCrop是神经网络训练中常用的一种预防过拟合的技术。受此启发,我们在图像合成过程中提出了多作物优化策略,以增强合成图像的信息量。在实践中,我们通过随机裁剪整个图像并随后将裁剪区域的大小调整为224×224的目标尺寸来实现它。在这种情况下,在每次迭代中只更新裁剪的区域。当从裁剪区域的角度看时,这种方法有助于精炼恢复的数据

  • Stage-3 Relabel: 为了配合我们的多作物优化策略,也为了反映恢复数据的真正软标签。我们将预先生成的软标签方法称为FKD。

    • y ^ i = ϕ θ T ( x ^ R i ) \hat y_i=\phi_{\theta_T}(\hat x_{R_i}) y^i=ϕθT(x^Ri)

    • 其中 x ^ R i \hat x_{Ri} x^Ri 为合成图像中的第i个作物, y ^ i \hat y_i y^i 为对应的软标签。最后,我们可以使用以下目标在合成数据上训练模型:

    • L s y n = − ∑ i y ^ i l o g ϕ θ C s y n ( x ^ R i ) L_{syn}=-\sum_i\hat y_ilog\phi_{\theta_{Csyn}}(\hat x_{R_i}) Lsyn=iy^ilogϕθCsyn(x^Ri)

    • 我们发现这一阶段对于使合成数据和标签更加一致以及显著提高训练模型的性能至关重要。

    • 讨论:提出的方法如何减少计算和内存消耗? 现有的解决方案主要采用双层优化或远程参数匹配策略,这需要将真实数据馈送到网络中,通过迭代过程生成目标数据更新和骨干网络训练的指导变量(如特征、梯度等)。由于gpu等计算硬件上同时存在真实和合成数据,因此这种方法会产生相当大的计算和内存开销,从而使这种训练策略难以扩展到更大的数据集和模型。为此,一个自然的想法是在训练阶段将真实数据和合成数据解耦,从而在每个训练阶段只需要最小的内存。这是通过将两级训练分为两个阶段来实现的:挤压和恢复。此外,我们可以方便地在第一个压缩阶段使用现成的预训练模型

Experiments

  • 在本节中,我们评估了我们提出的 S R e 2 L SRe^2L SRe2L 在各种数据集、模型和任务上的性能。首先,我们进行了广泛的消融实验,以研究每个组分在三个阶段的影响。接下来,我们展示了 S R e 2 L SRe^2L SRe2L 在大规模数据集、跨架构泛化和持续学习应用方面的优越结果。最后,我们用最先进的方法对提取的数据进行了可视化比较。

  • 实验设置。我们在两个大规模数据集 Tiny-ImageNe t和 full ImageNet-1K 上评估了我们的方法SRe2L。ImageNet-1K变体之间的详细比较见附录。对于骨干网,我们采用ResNet-{18,50,101}、viti - tiny和我们新构建的bn - viti - tiny 作为目标模型训练。为了提取ImageNet-1K,我们从PyTorch现成的预训练ResNet-{18,50}中恢复数据,Top-1精度为{69.76%,76.13%},以节省重新训练的计算开销。在提取Tiny-ImageNet时,使用ResNet-{18,50}作为基础模型,将第一个7×7 Conv层替换为3×3 Conv层,丢弃 maxpool层,遵循MoCo (CIFAR)。之后,他们在Tiny-ImageNet上从零开始训练。

  • 评估和基线。根据之前的工作,我们通过在压缩数据集上从头开始训练模型来评估压缩数据集的质量,并报告在真实 val 数据集上的测试精度。

Squeezing Analysis

  • 有许多训练方法可以提高模型的准确性,包括延长训练周期和数据增强策略,如 Mixup 和 Cutmix 。我们进一步研究了从显示不同精度水平的模型中生成的合成数据的性能。本研究旨在解决一个令人信服的问题:具有优越挤压的模型是否能产生更健壮的恢复数据?这里,“具有优越挤压的模型”被定义为在验证集上显示出增强精度的模型。

  • 压缩预算。在下表中,我们观察到随着压缩预算的增加,恢复模型的性能有所下降。这表明从经过多次迭代训练的模型中恢复数据的挑战越来越大。因此,我们采用50次迭代的压缩预算作为我们在Tiny-ImageNet上的实验的默认配置。

    • 在这里插入图片描述

    • 在Tiny-ImageNet上减少压缩预算和数据增强。

  • 数据增加。上表还表明,挤压阶段的数据增强方法降低了恢复数据的最终精度。综上所述,在Tiny-ImageNet上的结果表明,在压缩阶段延长训练时间和使用数据增强会加剧从压缩模型中恢复数据的复杂性

Recovering Analysis

  • 浓缩的数据被精心制作,随后使用预训练的ResNet-18在 20 的温度下重新标记。然后,我们报告了从头开始训练ResNet-18的val性能。

  • 图像先验正则化。 R T V R_{TV} RTV R l 2 R_{l_2} Rl2 在图像合成方法中应用广泛。然而,在追求从预训练模型中提取知识时,我们的重点主要放在语义信息的恢复上,而不是视觉信息。从评价性能的角度分析,如附录所示, R l 2 R_{l_2} Rl2 R T V R_{TV} RTV 对图像语义信息的恢复几乎没有贡献,甚至可能成为数据恢复的障碍。因此,这些图像先验正则化在我们的恢复阶段被省略

  • 恢复预算。我们进行了各种消融研究,以评估不同恢复预算对合成数据质量的影响。恢复预算指定为[0.5k, 1k, 2k, 4k]。如下表所示,它表明在相同的模型上使用更长的恢复预算会在恢复的数据上获得更高的分类精度。在不同模型的恢复情况下,结果表明,在相同的迭代设置下,ResNet-50在两个数据集上的数据恢复都不如ResNet-18。这表明,从更大的预训练模型中恢复数据的过程在大规模数据集上更具挑战性,需要更多的迭代来确保恢复的数据在下游分类任务上达到相当的性能。为了在性能和时间成本之间取得平衡,我们对Tiny-ImageNet和ImageNet-1K施加了1k迭代和2k迭代的恢复预算。

    • 在这里插入图片描述

    • 以ResNet-{18,50}作为不同更新迭代的恢复模型,以ResNet-18作为学生模型,消融实验设置下验证精度Top-1。“Time”表示在单个NVIDIA 4090 GPU上每次迭代训练1张图像所消耗的时间(ms)。

Relabeling Analysis

  • 我们进一步研究了不同的重标记模型和不同的软最大值温度对不同优化的建筑模型的影响。在下图中,我们给出了三个子图,它们代表了由三个预训练模型ResNet-{18,50,101}生成的标签上的模型的训练精度。这些实验使用的训练数据是相同的,并且是从预训练的ResNet-18模型中恢复的。

    • 在这里插入图片描述

    • 在IPC 50下,在各种标签和温度设置下训练的模型的前1值精度。T 和 S 分别表示重标注的参考模型和待训练的目标模型。R18、R50、R101分别为ResNet-18、ResNet-50、ResNet-101的缩写。

  • Relabeling Model. 从上图可以看出,每个子图在相同位置(设置)下的准确率始终低于前一个子图,在ImageNet-1K上平均差值分别为7.42%和5.16%,在Tiny-ImageNet上平均差值分别为11.45%和1.89%。因此,可以推断,当重新标记模型与恢复模型一致时,恢复数据的标签最准确。然而,标签错误和Top-1错误倾向于随着重新标签模型和恢复模型之间的差距越来越大而升级。因此,在我们的3阶段方法中,我们选择对恢复和重新贴标签过程采用相同的模型。

  • Temperature on Soft Label. 我们进行了包括五种不同温度选择[1、5、10、15、20]的实验,专门针对蒸馏配置下的标签softmax操作。结果表明,当温度设置超过10时,Top-1精度最初经历快速激增,随后趋于平稳。采用ResNet-18作为教师模型,ResNet-101作为学生模型,温度固定在20时,Top-1的最大精度为60.81%。这一观察结果强调了在学生模型的训练中,较高温度设置对标签softmax操作的有益影响。因此,我们选择在随后的评估实验中使用20的温度值。

  • 模型的训练。与之前的数据压缩工作相反,由于在相应的恢复模型中过度拟合,替代架构无法在压缩数据上有效地训练,我们的压缩数据展示了真实数据中固有的模型训练可扩展性。在上图中的每个子图中,我们观察到在训练ResNet-18、ResNet-50和ResNet-101时准确率逐步提高。这表明我们的压缩数据不会在恢复模型中出现过拟合的问题,并且在推理过程中,当训练具有增强功能的模型时,Top-1的准确性更高。

Condensed Dataset Evaluation

  • Tiny-ImageNet。从Tiny-ImageNet数据集获得的结果显示在下表的第一组中。经评估,在IPC 50下MTT达到28.0%。相比之下,我们在ResNet-{18,50,101}架构上的结果分别为41.1%,42.2%和42.5%,明显超过了MTT的性能。一个值得注意的观察是,我们更强的骨干网不仅实现了更高的准确性,而且对于不同的恢复架构也具有鲁棒性。

    • 在这里插入图片描述

    • 与基线模型的比较。†表示ImageNette数据集,它只包含10个类。特斯拉[11]使用了下采样的ImageNet-1K数据集。我们的结果来自完整的ImageNet-1K,它在计算和内存方面更具挑战性,同时在现实场景中表现出更大的适用性潜力。使用的恢复模型为R18。

  • 根据IPC 50和100设置在相对较小的Tiny-ImageNet数据集上的结果,很明显,通过上表和上图中的方法,较大的骨干网络并没有从ResNet-18到ResNet-101产生成比例的性能增强。然而,这与我们在下面详细讨论的完整ImageNet-1K上的观察结果不同。

  • ImageNet-1K。如上表的第二组所示,在IPC 10下使用相同的ResNet-18模型架构,我们的方法将TESLA的性能从基线的7.7%提高到21.3%。与TESLA相反,在更大的模型架构下,性能会恶化,我们提出的方法利用了更大的架构,显示出明显的比例性能增强。这表明了当代大规模模型的重大前景。在IPC 50,100和200上,我们的方法获得了一致的精度提升。

Cross-Architecture Generalization

  • 验证我们的压缩数据集的泛化属性是很重要的,确保它能够有效地泛化到它在合成阶段没有遇到的新架构。上图和下表表明,我们的压缩数据集在ResNet-{18,50,101}和vit-t上表现出了熟练的交叉模型泛化。

    • 在这里插入图片描述

    • 跨架构泛化的ImageNet-1K Top-1。采用两种恢复/压缩模型:Deit-Tiny-BN和ResNet-18。四种评价模型:Deit-Tiny, ResNet-{18,50,101}。

  • 结果表明,我们的压缩数据集在不同的和更大的架构中保持健壮性。然而,我们观察到ViT在压缩数据集上的次优性能,这可能是由于模型固有的对大量训练数据的需求,如[An image is worth 16x16 words: Transformers for image recognition at scale]所述。

Synthetic Image Visualization

  • 下图提供了从我们的压缩数据集中选择的合成图像和从MTT压缩数据集中相应图像的视觉比较。我们的方法生成的合成图像在语义上表现出更高的清晰度,有效地封装了目标类的属性和轮廓。相比之下,来自MTT的合成图像显得相当模糊,主要捕获颜色信息,而只封装了关于目标类的最小细节。因此,SRe2L 产生的高质量图像不仅嵌入了丰富的语义信息以提高验证准确性,而且还展示了卓越的视觉性能。

    • 在这里插入图片描述

    • MTT的可视化和我们的SRe2L。上面两行是合成的Tiny-ImageNet,下面两行是合成的ImageNet-1K(第一行是MTT,第二行是我们的)。

Application: Continual Learning

  • 数据冷凝或蒸馏旨在创建一个紧凑的合成数据集,该数据集保留了大规模原始数据集中的基本信息,使其更容易处理并减少训练时间,同时实现与原始数据集相当的性能。以前的解决方案主要分为四类:元模型匹配优化了在压缩数据上训练的模型的可移植性,在将合成数据推广到原始数据集时,使用外环更新合成数据,并使用内环训练网络,方法包括DD、KIP、RFAD、FRePo和LinBa ;梯度匹配在原始数据集上训练的网络和合成数据上训练的相同网络上执行一步距离匹配过程,方法包括DC、DSA、DCC和IDC ;分布匹配是对原始数据和合成数据的分布进行单级优化直接匹配,方法包括DM、CAFE、IT-GAN、KFS ;轨迹匹配是对原始数据和合成数据训练模型的训练轨迹进行多步匹配,方法包括MTT和TESLA。我们提出的解耦方法为解决这一问题提供了一个新的视角,而我们的BN匹配恢复过程也可以看作是一种基于BN统计分布的分布匹配方案。

Conclusion

  • 我们提出了一种新的数据集压缩三步处理方法,为利用大规模数据集的力量提供了一种更高效和有效的方法。通过采用压缩、恢复和重新标记的顺序步骤,这项工作浓缩了大规模ImageNet-1K,同时保留了其基本信息和性能。所提出的方法大大优于现有的最先进的冷凝方法,并且具有广泛的应用范围,从加速生成和训练过程到使该方法能够在资源受限的环境中使用。此外,该研究还证明了重新思考传统的数据凝聚和模型训练方法的重要性,因为新的解决方案可以提高计算效率和模型性能。随着数据凝聚领域的不断发展,对目标方法的探索,如本工作中提出的方法,将对未来更有效、更健壮、能够以可持续的方式处理大量数据的凝聚方法的发展至关重要

  • 局限性和未来工作:目前,压缩数据集与原始完整数据集之间的性能差距仍然存在,这表明用压缩数据完全替代完整数据尚不可行。展望未来,我们的研究工作将集中在更大的数据集上,如ImageNet-21K的凝聚,以及包括语言和语音在内的其他数据模式。

A Implementation Details

Dataset Statistics

  • 下表列举了ImageNet-1K训练集的各种排列,根据它们各自的配置进行描述。Tiny-ImageNet包含了从ImageNet-1K衍生的200个类,每个类包含500张图像,分辨率为64×64。ImageNette/ImageWoof(也可以称为ImageNet的子集)包括10个类似子类别的类,每个图像的分辨率为112×112。MTT框架引入了额外的10类ImageNet子集,包括ImageFruit、ImageSquawk、ImageMeow、ImageBlub和imageyellow。ImageNet-10/100从ImageNet中采样10/100个类,同时保持图像分辨率为224×224。downsampling ImageNet- 1k将整个ImageNet数据重新缩放到64×64的分辨率。在我们的实验中,我们选择了两个规模相对较大的标准数据集:Tiny-ImageNet和完整的ImageNet-1K。

    • 在这里插入图片描述

    • 不同配置的ImageNet-1K训练集的V个变体。

Squeezing Details

  • 数据增加。主论文中的表说明,在挤压阶段使用数据增强技术会导致恢复数据的最终准确性下降。总之,在Tiny-ImageNet上的结果表明,在压缩阶段延长训练周期和应用数据增强会加剧从压缩模型中恢复数据所涉及的复杂性

  • 从ImageNet-1K数据集的压缩模型中推断出并行结论。对于我们的实验设置,我们的目标是从PyTorch模型 zoo 中具有可用V1和V2权重的预训练的ResNet50模型中提取数据。结果表明,与包含V1权值的ResNet50模型相比,配置V2权值的ResNet50模型的数据提取任务面临更大的挑战。这可以归因于这样一个事实,即使用V1权重的模型使用基本配方进行训练,而使用V2权重的模型包含许多训练增强,例如延长训练和数据增强,以实现尖端性能。这些额外的复杂性阻碍了数据恢复过程。因此,我们用于恢复ImageNet-1K图像的预训练模型是那些整合PyTorch模型 zoo 的V1权重的模型。

  • Hyper-parameter设置。我们为这两个数据集提供了详细的超参数设置。

    • Tiny-ImageNet:我们在Tiny-ImageNet数据上训练修改后的ResNet-{18,50}模型,参数设置见下表a。经过良好训练的ResNet-{18,50}模型在50 epoch训练预算下达到了{59.47%,61.17%}的Top-1准确率。

    • 在这里插入图片描述

    • 参数设置分为三个阶段。

    • ImageNet-1K:我们使用PyTorch现成的ResNet-{18,50}, V1权重和Top-1精度为{69.76%,76.13%}作为压缩/压缩模型。在原始的训练脚本[38]中,ResNet模型使用SGD优化器训练了90个epoch,学习率为0.1,动量为0.9,权衰减为1 × 10−4。

Recovering Details

  • 正则化项。我们在不同正则化条件下进行了大量消融实验,如下表所示。两个图像先验正则化器,l2正则化和总变差(TV),预计不会提高验证精度,因为我们主要关注的是信息恢复而不是图像平滑。因此,我们从实验中排除了这两个正则化项。

    • 在这里插入图片描述

    • 消融实验设置下验证精度排名第一。三个阶段均使用ResNet-18,重燃温度τ = 20。

  • Multi-crop优化。为了抵消在模型训练阶段应用于训练数据的RandomResizedCrop操作,我们在合成数据上合并了相应的RandomResizedCrop增强。这意味着在每个迭代中,合成数据中只有一小部分裁剪过的区域需要更新。我们的实验表明,我们的多作物优化策略促进了验证精度的显著提高,如上表所示。

  • 与下图中其他非裁剪设置的对比可视化显示,在最后几列(SRe2L)中,分布在整个图像中的多个具有丰富分类特征的微型区域。例子包括多个火山头、鲨鱼身体、蜂毛和山脊。这些多个小特征区域填充了整个图像,增强了图像在可视化方面的表现力。因此,我们合成图像上的裁剪区域不仅与目标类别联系更紧密,而且更有利于模型训练。

    • 在这里插入图片描述

    • 在各种正则化条件和裁剪增强设置下在ImageNet-1K上的可视化示例。选择的类是 {Volcano, Hammerhead Shark, Bee, Valley}.

  • 内存消耗和计算成本。在内存利用方面,存储器在数据恢复阶段容纳预训练的模型、重构的数据和相应的计算图。与MTT方法不同,MTT方法需要在模型训练过程中所有时代的所有模型状态与轨迹保持一致,我们提出的方法SRe2L只需要存储在压缩模型中的每个BN层的统计数据来进行图像优化。就计算开销而言,它与恢复迭代的次数成正比。为了在性能和计算时间之间建立平衡,我们在消融实验中对Tiny-ImageNet和ImageNet-1K强制执行1k迭代和2k迭代的恢复预算。我们在4k恢复迭代的压缩数据上实现的最佳精度如主论文中的表所示。

  • Hyper-parameter设置。我们计算了总恢复损失 l t o t a l = a r g m i n C s y n , ∣ C ∣ l ( ϕ θ T ( x ^ s y n ) , y ) + α B N R B N l_{total} = arg min_{Csyn,|C|} l(ϕ_{θT} (\hat x_{syn}), y) + α_{BN}R_{BN} ltotal=argminCsyn,Cl(ϕθT(x^syn)y)+αBNRBN,并分别对TinyImageNet和ImageNet-1K使用表c和表d中的参数设置更新合成数据。

Relabeling & Validation Details

  • 在本实验中,我们使用与恢复模型相同的架构来提供软标签作为合成图像的教师。我们实现了一个快速的知识蒸馏过程,训练预算为300次,温度设置为τ = 20。

  • Hyper-parameter设置。关于Tiny-ImageNet,我们利用压缩的数据和重新定位的标签在100个epoch的范围内训练验证模型,所有其他训练参数都遵循表a中列出的压缩配置。以ImageNet1K为例,我们采用混合概率p = 1.0、Beta分布β = 1.0的Cutmix增强,按照表b所示的参数配置训练验证模型。

B Low-Resolution Data (32×32)

  • 在MNIST和CIFAR等小型数据集上进行了实验。从本质上讲,这些数据集封装了有限的信息量。我们的方法涉及压缩和随后的恢复,固有地导致每个阶段的信息丢失,从而阻碍了我们的结果在这些数据集上的竞争力。例如,在使用32×32分辨率和IPC=1K的CIFAR-10数据集上,我们的方法达到了60.2%的准确率。然而,我们强调,当应用于这些数据集时,我们的方法继续显示出卓越的计算效率和增强的处理速度

C Feature Embedding Distribution

  • 我们通过预训练的ResNet-18模型输入图像数据,随后在分类层之前提取特征嵌入,以执行t-SNE降维和可视化。图a显示了合成的Tiny-ImageNet数据的两个不同的特征嵌入分布,分别来自MTT和SRe2L的浓缩数据集中的3个类。相对于MTT中的分布,SRe2L来自不同类别的合成数据显示出更分散的模式,而来自相同类别的数据显示出更高程度的聚类。这说明SRe2L合成的数据在特征嵌入分布方面具有较好的可判别性,可以用来训练模型,从而获得较好的性能。图b为SRe2L合成的8类ImageNet-1K数据的特征嵌入分布。我们合成的ImageNet-1K数据也体现了卓越的聚类和可判别性属性。

    • 在这里插入图片描述

    • 合成数据和真实ImageNet-1K数据的特征嵌入分布。采用ResNet-18作为特征嵌入提取器。

D More Visualization of Synthetic Data

  • 我们在下图中提供了MTT和SRe2L在合成Tiny-ImageNet上的更多可视化比较。

    • 在这里插入图片描述

    • 基于MTT和SRe2L的Tiny-ImageNet合成数据可视化。

  • 此外,我们在下图中提供了与ImageNet-1K相关的合成样本,以便更全面地了解。可以看出,我们的合成数据具有比MTT更强的语义信息,具有更多的物体纹理、形状和细节,这表明我们的合成数据具有更高的质量。

    • 在这里插入图片描述

    • 基于SRe2L的ImageNet-1K合成数据可视化。

    • 在这里插入图片描述

    • 基于SRe2L的ImageNet-1K合成数据可视化。

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值