超越scaling laws：通过数据裁剪来降低资源消耗，同时不影响甚至提升模型效果...

最新推荐文章于 2025-04-10 22:41:05 发布

ronghuaiyang

最新推荐文章于 2025-04-10 22:41:05 发布

阅读量165

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247498218&idx=1&sn=a5a4ba0141a9aa6f6f142dde145b2e85&chksm=c129bcc97a31cef25273b512c18c7357b937f65c1983b0c4c4ac57d7ece16f78958e75572c27&scene=126&sessionid=0

版权

导读

本文关注的是错误率随数据集规模的变化，并展示理论上如果能够获得一个高质量的数据裁剪度量标准，该标准可以对应该丢弃哪些训练样本以达到任何裁剪后的数据集大小进行排序，我们就可以超越幂律缩放，甚至可能将其减少到指数缩放。

Beyond neural scaling laws: beating power law scaling via data pruning

摘要

广泛观察到的神经网络缩放定律表明，随着训练集规模、模型规模或两者的幂次增长，错误率会下降，这推动了深度学习性能的显著提升。然而，仅通过这种规模上的改进就需要付出巨大的计算和能源成本。本文关注的是错误率随数据集规模的变化，并展示理论上如果能够获得一个高质量的数据裁剪度量标准，该标准可以对应该丢弃哪些训练样本以达到任何裁剪后的数据集大小进行排序，我们就可以超越幂律缩放，甚至可能将其减少到指数缩放。

然后，我们通过实验测试了这种改进后的缩放预测与裁剪后数据集大小的关系，并且实际上在使用ResNets训练CIFAR-10、SVHN和ImageNet时观察到了优于幂律缩放的效果。鉴于找到高质量裁剪度量的重要性，我们进行了首次大规模基准研究，评估了十种不同的数据裁剪度量在ImageNet上的表现。我们发现大多数现有的高性能度量在扩展到ImageNet时表现不佳，而最好的度量则计算成本高昂且需要每个图像的标签。因此，我们开发了一种新的简单、廉价且可扩展的自监督裁剪度量方法，其表现与最佳的监督度量相当。

总体而言，我们的研究表明，发现好的数据裁剪度量可能是实现显著改进神经缩放定律的有效途径，从而降低现代深度学习的资源成本。

1 介绍

许多机器学习领域，包括视觉、语言和语音，都观察到了经验性的神经网络缩放定律，这些定律显示测试错误通常会随着训练数据量、模型规模或计算量的增长而按照幂律下降。这样的幂律缩放激发了社会在数据收集、计算及相关的能源消耗方面的重大投资。然而，幂律缩放极其微弱且不可持续。例如，从3%降至2%的误差可能需要多出一个数量级的数据、计算或能源。在使用大型Transformer的语言建模中，交叉熵损失从约3.4降为2.8需要10倍更多的训练数据。同样地，对于大型视觉Transformer，额外的20亿预训练数据点（从10亿开始）只会带来ImageNet上几个百分点的准确率提升。在这里，我们探讨是否有可能做得更好。例如，能否通过选择训练样本的良好策略来实现指数缩放？如果能够做到这一点，那么从3%降至2%的误差只需添加少量精心挑选的训练样本，而不是收集10倍随机数据。

专注于训练数据集大小与性能缩放之间的关系，我们展示了指数缩放不仅在理论上而且在实践中都是可能的。关键的想法在于，错误率关于数据的幂律缩放表明许多训练样本高度冗余。因此，原则上可以通过修剪训练数据集至更小的规模，并在这些较小的修剪后的数据集上进行训练而不牺牲性能。事实上，一些最新的工作已经通过提出各种指标来对训练样本按难度或重要性排序——从容易或冗余的例子到困难或重要的例子，并通过保留一部分最难的例子来修剪数据集，展示了这种可能性。但是，这些工作留下了一些基本的理论和实证问题：何时以及为何成功的数据修剪是可能的？什么是良好的数据修剪指标和策略？这些策略能否胜过幂律缩放？它们能否扩展到ImageNet？我们能否利用大型未标记数据集成功地修剪已标记的数据集？

我们通过理论和实验来解决这些问题。主要贡献包括：

利用统计力学，我们在感知机学习的学生-教师设置中发展了一个新的数据修剪分析理论，其中样本根据其教师边缘被修剪，大（小）边缘对应于容易（难）的例子。我们的理论定量匹配数值实验，并揭示了两个引人注目的预测：
(a) 最佳修剪策略取决于初始数据的数量；当初始数据丰富（稀缺）时，应只保留困难（容易）的例子。
(b) 如果选择一个随初始数据集大小增加的帕累托最优修剪比例，那么相对于修剪后的数据集大小，指数缩放是可能的。
我们证明，从理论中得出的这两个引人注目的预测在更加广泛的实际情况中也成立。实际上，我们通过实验证明了ResNets从头开始在SVHN、CIFAR-10和ImageNet上训练，以及Vision Transformers在CIFAR-10上微调时，错误率相对于修剪后的数据集大小表现出指数缩放的特征。
鉴于寻找高质量数据修剪度量的重要性，我们在ImageNet上进行了大规模的基准测试研究，评估了10种不同的数据修剪度量，发现大多数表现不佳，除了那些计算成本最高的度量。
我们利用自监督学习（SSL）开发了一种新的、廉价的无监督数据修剪度量，这种方法不需要标签，与之前的度量不同。我们展示了这种无监督度量的表现与需要标签和更多计算的最佳监督修剪度量相当。这一结果开启了令人兴奋的可能性，即可以利用预训练的基础模型在数据集被标注之前对其进行修剪。

总的来说，这些结果从理论和实证角度揭示了深度学习中数据的本质及其修剪能力，并暗示我们目前收集极大数据集的做法可能效率低下。我们在击败幂律缩放方面取得的初步成果激励了进一步的研究和投入，不仅仅是在低效地收集大量随机数据，而是智能地收集少量精心挑选的数据，这可能会促进基础数据集的创建和传播，而不仅仅是基础模型。

2 背景和相关工作

我们的工作汇集了机器学习中三个相对独立的知识探究方向：(1) 不同度量用于量化单个训练样本之间差异的探索；(2) 神经缩放定律的经验观察；以及 (3) 学习的统计力学。

2.1 数据修剪度量：不是所有的训练样本都是等同的

最近的一些研究探讨了多种用于量化数据点个体差异的度量标准。为了以统一的方式描述这些度量，我们可以认为所有这些都是按照难度对数据点进行排序，从“最简单”到“最难”。当这些度量被用于数据修剪时，最困难的样本会被保留下来，而最容易的则会被剪除。

EL2N得分。例如，训练个小型集成网络（大约10个）非常短的时间（大约10个周期），并为每个训练样本计算了误差向量的平均L2范数（EL2N得分）。通过仅保留最难的样本（具有最大误差的样本）来进行数据修剪，使得分别可以从CIFAR-10和CIFAR-100的50%和75%的数据开始训练，而不会损失最终的测试准确性。然而，EL2N在ImageNet上的表现尚未得到探索。

遗忘得分和分类边缘。注意到在整个训练过程中，有些样本被早期学习并且永远不会忘记，而其他样本则可以反复学习和遗忘（即被忘记）。他们开发了一个遗忘得分，用来衡量每个样本被遗忘的程度。直观上，遗忘得分低（高）的样本可以被认为是简单的（困难的）样本。有文献探索了使用这些度量进行数据修剪，但没有达到ImageNet的规模。

记忆和影响。有文献为每个样本定义了一个记忆得分，这个得分反映了该样本存在于训练集中时，正确预测该样本标签的概率相比它不存在时增加的程度；大幅度的增加意味着该样本必须被记住（即其余训练数据不足以正确学习该样本）。此外，有文献还考虑了一个影响得分，该得分量化了将特定样本添加到训练集中时，测试样本正确类标签概率增加的程度。直觉上，记忆和影响得分低对应于与其余数据重复的简单样本，而得分高则对应于必须单独学习的困难样本。有些文献并未使用这些得分进行数据修剪，因为它们的计算成本很高。值得注意的是，由于记忆明确近似于移除每个单独样本导致的测试损失增加，因此它很可能是一个好的修剪度量（尽管它不考虑交互作用）。

集成主动学习。主动学习是在模型训练和选择新输入进行标注之间迭代的过程。相比之下，我们专注于数据修剪：一次性选择一个足够大的数据子集，以便能够从头开始训练至高精度。为此目的提出了各种核心集算法，但它们的计算成本较高，因此在大规模的ImageNet上，数据修剪的研究较少。一种早期的聚类方法使得能够在不牺牲准确性的前提下训练90%的ImageNet。值得注意的是，通过在ImageNet上训练大型网络集合，并利用集合不确定性来定义每个样本的难度——不确定性低（高）对应于简单（困难）样本，从而将这一比例降低到了80%。我们将展示如何在不使用标签或不需要训练大型网络集合的情况下实现类似的修剪性能。

多样化的集合（DDD）。给每个ImageNet图像分配了一个分数，该分数由一个多样化集合中的模型数量（10个模型）错误分类该图像的数量决定。直观上，分数低（高）对应于简单（困难）样本。此度量的修剪性能仍有待探索。

总结。我们注意到：(1) 只有其中一个度量在ImageNet的大规模数据修剪效果上得到了良好的测试；(2) 所有这些度量都需要标签信息；(3) 对于这些度量何时何因能够进行数据修剪，目前没有理论支持；(4) 没有这些工作表明存在指数级缩放的可能性。因此，我们超越了以往的工作，不仅评估了这些度量的数据修剪效果，还介绍了一种新的无监督度量，该度量不需要标签信息，并且在ImageNet的大规模上进行了评估。我们还为边界度量的数据修剪发展了一套分析理论，该理论不仅预测了指数级缩放的可能性，而且还首次发现，在数据稀缺的情况下，保留简单而非困难的样本更好。

2.2 神经网络缩放定律及其潜在的低效性

近期的研究表明，测试损失L通常会随着诸如模型参数（N）、训练样本数量（P）以及计算资源（C）等不同资源按照幂律下降。然而，这些幂律的指数ν通常接近于0，这表明资源的利用可能并不高效。例如，对于那些拥有大量计算资源的大模型而言，训练数据量构成了性能瓶颈，此时损失按照ν的比例下降。特别是对于基于大Transformer的语言模型，ν = 0.095，这意味着训练数据量增加一个数量级只能使交叉熵损失下降大约0.6纳特。在神经机器翻译实验中，ν在不同语言对间的变化范围是从0.35到0.48。有趣的是，有文献探讨了固定计算预算C的情况下，同时优化模型尺寸N和训练集大小P，结果显示随着C的增加，相应地扩大N和P是计算最优的选择，可以产生比先前工作更小且表现更好的模型（训练于更多数据上）。然而，对于基于Transformer的语言模型而言，计算资源增加100倍，相当于模型尺寸和训练集大小各自增加10倍，却只能导致交叉熵损失下降约0.5纳特。类似地，对于大型视觉Transformer来说，添加20亿张预训练图像仅能减少几个百分点的ImageNet性能。尽管所有这些成果都代表着性能上的显著提升，但它们确实伴随着巨大的资源成本，这种成本的根本来源在于幂律缩放的小指数。最近的理论研究认为，幂律指数受制于从中均匀抽取训练样本的数据流形的维度。在此基础上，我们探讨是否可以通过精心挑选数据来超越幂律缩放。

2.3 感知机学习的统计力学

统计力学长期以来在分析机器学习问题中扮演着重要角色。其中一个最基本的应用是在学生-教师设置下的感知机学习，其中随机独立同分布的高斯输入由教师感知机标记以构建训练集。另一个从该训练集中学习的学生感知机的测试错误率随此类数据按指数-1的幂律变化。这类感知机也在主动学习设置中进行了分析，即学习者可以自由设计任何新的输入以供标记，而不是像数据修剪那样从一组固定的输入中选择。最近的工作分析了这种情况，但主要关注针对高斯输入和感知机定制的消息传递算法，这些算法难以推广到现实世界的应用场景。相比之下，我们分析了实践中在各种环境中使用的基于边距的修剪算法。

3 分析理论和数据裁剪

为了更好地理解数据修剪，我们采用了来自统计力学的方法来发展一个针对学生-教师设置下感知机修剪的解析理论。考虑一个包含P个样本的训练数据集，其中是独立同分布的零均值单位方差随机高斯输入，而是由具有权重向量的教师感知机生成的标签。我们在高维统计极限下工作，即当N和P趋向于无穷大时，但总训练样本数与参数数量之比保持为O(1)。然后我们考虑使用一种修剪算法，具体步骤如下：

使用非常少量的轮次对训练数据训练一个探测学生感知机，获得权重；
计算每个训练样本的边距，其中大的（小的）边距对应于简单的（困难的）样本；
构建一个大小为的修剪后的数据集，其中f是保留的样本比例，通过保留个最难的样本；
在较小的数据集上，使用较小的样本与参数之比训练一个新的感知机直至完成。

我们感兴趣的是最终感知机的测试误差作为、f以及探测学生与教师T之间的角度的函数。我们的理论近似地将视为简单随机高斯向量，条件是它与教师T的角度为。在此近似下，我们获得了的解析理论，该理论在高维极限下渐进精确。首先，我们考察当时的结果，这意味着我们根据训练样本相对于教师的真实边距来修剪（图1A）。我们发现了两种显著的现象，每一种现象都构成了在现实世界设定中的预测，我们将成功地经验证实这些预测。

最佳修剪策略取决于初始数据量。首先，注意图1A中f=1对应的测试误差曲线，这代表没有修剪的情况，等价于从大小为的更大数据集中随机修剪至大小为，表现出经典的感知机学习幂律缩放特性。有趣的是，对于小的，保留最难的样本表现不如随机修剪（图1A中小的较浅曲线位于最深曲线之上）。然而，对于大的，保留最难的样本明显优于随机修剪（图1A中大的较浅曲线位于最深曲线之下）。当小时，保留最容易的样本而非最难的样本是一种更好的修剪策略（图1C）。如果一开始数据不多，最好保留边距最大的容易样本（即图1B中的蓝色区域），以避免过拟合。最容易的样本提供了关于目标函数的大尺度信息，而最难的样本则提供了关于目标函数的小尺度信息，这可能阻止模型的学习如果开始时数据量很大。在过拟合问题较少的情况下，最好保留边距最小的最难样本，它们提供了更多关于教师决策边界的信息（即图1B中的绿色区域）。直观来说，在有限数据条件下，由于基础信息未能充分捕捉，因此建模异常值具有挑战性；故此，保持简单样本更为重要，以便让模型达到适度的误差。然而，当数据集较大时，简单样本可以轻松学习，此时建模异常值成为根本性的挑战。

图1C揭示了最佳修剪策略作为和f的联合函数的变化情况。请注意，当保留的数据比例f较小时，最优策略之间的转变变得更加尖锐。这种最优修剪策略之间的转变可以被视为更广泛设定中的预测。为了检验这一预测，我们在CIFAR-10数据集的修剪子集上训练了一个ResNet18（图1D），并观察到了非常相似的行为，表明这一预测可能远超出感知机学习，适用于更广泛的场景。

帕累托最优数据修剪可以超越幂律缩放。我们理论的第二个预测是，当保持固定比例f的最难样本随着增加时（即图1A中颜色恒定的曲线），误差最初会随呈指数下降，但随后会进入普遍的幂律缩放，对于所有固定的f都是如此。因此，在固定的f下，数据修剪并没有渐近优势。然而，通过在获得更多初始数据（更大的）时更加激进地修剪（更小的f），可以实现作为修剪后数据集大小函数的帕累托最优测试误差，其惊人地追踪出至少符合指数缩放定律的趋势（图1A，紫色曲线）。实际上，我们的理论预测对于每个存在一个在和f中的帕累托最优点（受制于），从而对于每个固定的给出一个最优的，如图1E所示。请注意，随着的增加而减少，表明为了获得更大规模的帕累托最优修剪数据集（大小为），需要对原始数据集（大小为）进行更加激进的修剪（更小的）。我们将在图3中测试这一显著的缩放预测。

超越幂律缩放：信息论视角。经典随机选择的数据产生缓慢的幂律错误缩放，因为每个额外的训练样本提供的关于正确决策边界的新信息比前一个样本少。更正式地说，设表示与大小为的训练集一致的学生感知机权重后验分布的典型熵。由于超过的额外样本带来的信息增益可以定义为后验熵减少的速度：。在经典的感知机学习中，随着按照幂律衰减至零，反映了每个新样本提供的信息量逐渐消失，导致测试误差缓慢的幂律衰减。然而，数据修剪可以通过去除无信息的样本增加每个样本的信息增益。为了展示这一点，我们将后验熵(S)和信息增益(I)的复本计算从大小为的随机数据集推广到大小为的修剪数据集。我们在图1F中绘制了不同f下的信息增益。对于任何固定的f，最终会像那样按幂律衰减。但是，通过对更大尺寸的数据集进行更加激进的修剪（更小的f），可以收敛到一个有限值I(1)=1纳特/样本，这导致较大的修剪数据集仅添加有用且非冗余的信息。因为每个新的样本在帕累托最优数据修剪下传达了关于目标决策边界有限的信息，如图1F所示，测试误差可以至少按照修剪后数据集大小的指数衰减，如图1A所示。经典结果表明，通过最大化学生感知机委员会之间的分歧选择训练样本可以提供渐近有限的信息率，从而导致测试误差的指数衰减。有趣的是，我们在本研究中探讨的帕累托最优数据修剪策略导致了比指数更快的衰减，因为它包括（部分）由探针学生提供的关于目标函数的信息（图11）。

一个不完美的修剪指标会导致从指数缩放到幂律缩放的转变。接下来，我们研究探针学生与教师T之间的夹角不为零的情况，这使得按边距对训练样例进行排序不再完全准确（图2A）。保持相对于探针学生边距最小的难题实例总会导致修剪后的数据集位于探针的决策边界附近。但如果较大，这些例子可能离教师的决策边界很远，因此关于教师的信息可能较少（图2A）。因此，我们的理论，通过仿真得到验证，预测在非零角度下，测试误差在和(f)上的帕累托最优下限最初作为的函数呈指数缩放，但随后转变为幂律缩放（图2BCD）。实际上，在任何给定的非零下，我们的理论揭示了随着（因此也是）增大，通过保留小于所有可用数据的最小比例的数据，无法进一步减少测试误差。例如，当（或）时，渐近上最好的情况只能修剪至全部数据的24%（或46%）（图2CD）。随着趋向于0，也趋向于0，表明可以极其激进地修剪至任意小的(f)同时仍然提升性能，导致在图2B中对于任意大的至少呈现指数缩放。然而，对于非零，当较大时，如果$f<f_{\text{min}}(\theta)$，则不会有任何改进，这使得激进修剪变得无效。这一结果突显了寻找高质量修剪指标的重要性，这些指标应该使$\theta\approx 0$。这样的指标可以通过使非常小的f的激进修剪变得高度有效，来延缓随着修剪数据集大小$\alpha_{\text{prune}}$增加从指数缩放到幂律缩放的转变。特别地，我们在现实世界设置中展示了这种转变，即当数据集通过训练了4个周期（弱修剪指标）的探针resnet18按照el2n指标进行修剪时，svhn上的测试误差受到幂律的下界限制；而当使用训练了40个周期（强修剪指标）的探针resnet18进行修剪时，则没有这种限制。<="" p="">

4 数据裁剪在实践中可以超越幂律缩放

我们关于感知机数据修剪的理论提出了三个显著的预测，这些预测可以在更广泛的环境中进行测试，比如基于基准数据集训练的深度神经网络：(1) 相对于随机数据修剪，仅保留最难的例子在初始数据集规模较大时是有帮助的，但在初始数据集较小的时候会有害；(2) 通过保留固定比例f的最难例子来进行数据修剪，应当会随着初始数据集规模的增加而产生幂律缩放，其指数等同于随机修剪；(3) 在初始数据集规模和保留数据比例上优化的测试误差可以描绘出一条帕累托最优的下包络线，该线能够通过在更大初始数据集规模下的更激进修剪，来超越测试误差随修剪后数据集规模变化的幂律缩放。我们通过在SVHN、CIFAR-10和ImageNet上训练的ResNet模型，使用不同的初始数据集规模和修剪后保留的数据比例验证了这三个预测（对比图3A中的理论与图3BCD中的深度学习实验结果）。在每个实验设置中，我们观察到在较大的初始数据集规模和更激进修剪的情况下，测试误差的缩放优于幂律缩放。此外，我们预计在更大的初始数据集下，缩放效果会更好（如图3A中的虚线所示）。

数据修剪改善了迁移学习的效果。现代基础模型首先在一个大型初始数据集上预训练，然后通过对它们进行微调来转移到其他下游任务上。因此，我们探讨了数据修剪是否既能够减少微调所需的数据量，又能够减少预训练所需的数据量。为此，我们首先分析了一个在ImageNet21K上预训练的视觉Transformer(ViT)，然后在CIFAR-10的不同修剪子集上进行了微调。有趣的是，预训练模型允许更加激进修剪；仅在CIFAR-10的10%数据上进行微调就能匹配或超过在全部CIFAR-10数据上微调所获得的性能（图4A）。此外，图4A提供了在微调设置中超越幂律缩放的一个新例子。另外，我们还考察了修剪预训练数据的有效性，具体做法是在ImageNet1K的不同修剪子集上预训练ResNet50模型（正如图3D所示），然后再在全部CIFAR-10数据上对它们进行微调。图4B显示，即使只在ImageNet的50%数据上进行预训练，也能匹配或超过在全部ImageNet数据上预训练所获得的CIFAR-10性能。因此，令人惊讶的是，在上游任务上修剪预训练数据仍能保持在不同下游任务上的高性能。总的来说，这些结果展示了数据修剪在迁移学习的预训练和微调阶段的巨大潜力。

5 在ImageNet上评估监督修剪度量标准

我们注意到大多数数据修剪实验都是在小规模数据集上进行的（即MNIST和CIFAR的各种变体），而针对ImageNet提出的少数修剪度量标准很少与在较小数据集上设计的基线进行比较。因此，目前还不清楚大多数修剪方法如何扩展到ImageNet，以及哪种方法最好。鉴于修剪度量的质量理论上可以对性能产生强烈影响（图2），我们决定通过系统地评估8种不同的监督修剪度量标准在ImageNet上的表现来填补这一知识空白：两种影响分数的变体，两种EL2N的变体，DDD，记忆，集成主动学习，以及遗忘。有关这些度量标准的回顾，请参见第2节。此外，我们在下一节中介绍了两个新的原型度量标准。

我们首先计算每对度量之间的斯皮尔曼等级相关系数，以了解不同度量引起的排名一致性（图5A）。有趣的是，我们发现度量之间存在显著的多样性，尽管有些（EL2N、DDD和记忆）相当相似，等级相关系数高于0.7。然而，我们观察到了度量之间的显著性能差异：图5BC显示了当保留每个度量下最难例子的一部分f作为训练集时的测试性能。尽管许多这些度量在较小数据集上取得了成功，但只有少数在选择显著较小的训练子集时（即大约80%的ImageNet）仍然能够达到全数据集训练所获得的性能。不过，大多数度量继续优于随机修剪，尤其是记忆表现出强大的性能（图5C）。我们注意到，由于ImageNet已经被精心策划以过滤掉无信息的例子，因此在ImageNet上的数据修剪可能比在其他数据集上更加困难。

我们发现所有修剪度量都会加剧类别不平衡，这导致了性能下降。为了解决这个问题，我们在所有的ImageNet实验中采用了50%的类别平衡比率。更多细节和没有类别平衡的基线在附录H中展示。包括基线在内的度量得分可从https://github.com/rgeirhos/dataset-pruning-metrics获取。

6 通过原型度量实现自我监督的数据修剪

图5展示了多数数据修剪度量在扩展到ImageNet时不理想，而少数能够良好扩展的度量则需要大量的计算资源。此外，所有这些度量都需要标签，这限制了它们对于基于大规模未标注数据集训练的大规模基础模型的数据修剪能力。因此，显然需要简单、可扩展的自我监督修剪度量。

为了计算适用于ImageNet的自我监督修剪度量，我们在一个ImageNet预训练的自我监督模型（此处使用SWaV）的嵌入空间中执行k均值聚类，并通过最近的聚类中心（或原型）的余弦距离定义每个数据点的难度。因此，容易（困难）的例子是最（最不）典型的。令人鼓舞的是，在图5C中，我们发现我们的自我监督原型度量在保持70%-80%的数据时，其性能与最佳的监督度量——记忆——相匹配甚至超过，尽管我们的度量不使用标签，并且计算起来比许多先前提出的监督度量更简单、成本更低。

为了评估我们度量找到的聚类是否与ImageNet类别一致，我们在图6A中比较了它们的重叠情况。有趣的是，我们发现在某些但不是所有类别中存在一致性。例如，像蛇这样的类别主要与少量的无监督聚类对齐，而其他类别则分散在多个这样的聚类中。如果类别信息可用，我们可以通过简单地计算每个类别的单个原型（通过平均该类别所有示例的嵌入）来强制聚类与类别之间的对齐。虽然最初作为额外的基准度量（称为监督原型，图5C中的浅蓝色）设计，但这个度量显著优于其他监督度量，并且在很大程度上与计算成本高昂的记忆度量相匹敌。此外，最佳的自我监督和监督度量的性能相似，显示出自我监督修剪的潜力。

自我监督原型度量的一个重要选择是聚类的数量k。令人放心的是，我们的结果对这一选择具有鲁棒性：即使k偏离实际类别数（如ImageNet中的1000）一个数量级，也不会影响性能。

为了更好地理解各种度量下的示例难度，我们可视化了一个类别下自我监督原型度量和记忆度量的极端图像（图6B,C）。定性地说，简单的例子对应于高度相似、冗余的图像，而困难的例子看起来像是独特的异常值。

7 讨论

总结。我们从理论和实践两方面展示了如何通过数据修剪打破错误率与数据集大小之间的缓慢幂律关系，进而实现更快的指数级缩放。此外，我们开发了一种简单的自我监督修剪度量，使我们能够在不牺牲性能的情况下丢弃20%的ImageNet数据，表现与最佳且计算密集度最高的监督度量相当。

局限性。最显著的局限在于达到指数级缩放需要高质量的数据修剪度量。由于大多数为较小数据集开发的度量在扩展到ImageNet时表现不佳，我们的结果强调了未来工作中识别高质量、可扩展度量的重要性。我们的自监督度量提供了一个强大的初始基线。此外，数据修剪的一个关键优势是由于在相同轮次内训练较小的数据集而减少了计算成本。然而，我们发现当在修剪后的数据集上进行与完整数据集相同迭代次数的训练时，性能通常会提高，这导致相同的训练时间，但增加了训练轮次。不过，这种性能提升在修剪后的数据集上的训练时间接近整个数据集之前就已经饱和），从而仍然带来了计算效率的提升。总体而言，在评估因数据修剪可能带来的收益时，准确性和修剪数据上的训练时间之间的权衡是重要的考虑因素。最后，我们发现类别平衡对于维持子集数据上的性能至关重要。未来的工作需要确定有效选择适当类别平衡的方法。

伦理考量。数据修剪可能导致对某些群体的不公平结果，这是潜在的负面社会影响。我们初步分析了数据修剪对个别ImageNet类别性能的影响，没有发现跨类别有显著差异。然而，对于每个模型，无论是在修剪过的数据还是未修剪的数据上训练，都应该始终进行特定于部署环境的公平性测试。此外，我们还分析了修剪对OOD（Out-of-Distribution，分布外）性能的影响。

展望：迈向基础数据集。我们认为最有前景的未来方向是进一步发展可扩展的、无监督的数据修剪度量。事实上，我们的理论预测，将修剪度量应用于更大规模的数据集应该能带来更大的收益，因为可以实现更激进的修剪。这使得数据修剪特别适合用于训练大型基础模型（如CLIP的4亿图像-文本对，35亿Instagram图像，DALLE-2编码器的6.5亿图像，以及PALM的7800亿标记）所使用的海量未标注数据集。如果可以使用高度修剪版本的数据集来训练大量不同的模型，就可以设想这样精心挑选的数据子集作为基础数据集，其中数据修剪的初始计算成本可以分摊到训练多个下游模型时的效率增益上，就像训练基础模型的初始计算成本可以分摊到许多下游任务微调时的效率增益一样。综上所述，我们的研究结果展示了数据修剪在大规模训练和预训练中的潜力和前景。