Do CIFAR-10 Classifiers Generalize to CIFAR-10?【翻译】

我是在博文“当前机器学习成果真的可靠吗?伯克利&MIT新研究质疑基准测试集”看到这篇论文的,我认为这篇论文非常的有意思,便在最近翻译了这篇论文。
希望大家多多指教!

**

Do CIFAR-10 Classifiers Generalize to CIFAR-10?

**

摘要

机器学习方面的研究目前主要由几项关键任务的性能改进为关注点的实验性工作为主导。 但是,表现最佳的模型的让人印象深刻的准确性,遭到了质疑,原因是相同的测试集已经用了多年来衡量这些模型。为了理解过度拟合的存在性危害,我们通过创建一个真正未经学习的图像新测试集来衡量CIFAR-10分类器的准确性。尽管我们确保新测试集尽可能接近原始数据分布,但我们发现大多数的深度学习模型的精度有大幅的下降(4%至10%)。然而,具有较高原始准确度的较新模型显示出较小的下降幅度和较好的整体性能,表明这种下降可能不是由于数据集适应关系的过拟合问题。相反,我们的实验结果可以被视为证据,证明当前的准确性数字是脆弱的,并且易受数据分布中的微小自然变化而影响的。

1 Introduction

在过去五年中,机器学习已经毫无疑问地成为了一个实验的领域。在深度学习的大量研究的推动下,大部分已发表的论文都采用了一种范式,这种范式是,评定一个新学习技术、学习模型的主要依据是其在几个关键基准上的性能是否有得到提高。但是同时,对于为什么提出的技术相对于之前的工作是可靠的改进,几乎没有解释。相反,我们的改进程度很大程度上取决于少数标准数据集,如CIFAR-10,ImageNet或MuJoCo。这时,一个关键问题孕育而生:

我们目前的机器学习进步有多可靠?

正确评估机器学习研究的进展是微妙的。毕竟,学习算法的目标是生成一个能够很好地推广到无法预先学习的数据集的模型。由于我们通常无法访问事实上的数据分布,因此我们会在单独的测试集上评估模型的性能。
这确实是一个有原则的评估协议,只要我们不使用测试集来选择我们的模型。
不幸的是,我们通常对相同分区的新数据的有着受限的访问。现在,在整个算法和模型设计过程中多次重复使用相同的测试集被普遍接受。这种做法的例子非常丰富,包括在单篇论文的工作中调整超参(层数等),或者建立在其他研究人员在各种工作上。尽管将新模型与以前的结果进行比较是自然而然的达到预期,但显然目前的研究方法破坏了分类器独立于测试集的关键假设。这种不匹配带来了明显的危险,因为研究者团队可以很容易地设计模型,这些模型只能在特定的测试集上运行良好,但实际上未能在新数据中得到推广。

1.1 一个CIFAR-10的重复性研究

为了理解当前机器学习的可靠性如何可靠,我们设计并开展了一种新的可重复性研究。其主要目标是衡量目前分类器在相同分布的新的但真正没有学习过的数据集中如何表现。我们专注于标准的CIFAR-10数据集,因为它的透明创建过程使其特别适合于此任务。 而且,CIFAR-10现在已经成为近10年来研究的热点。
由于这个过程的自由的竞争价值,这是一个很好的测试案例,用于调查适应性是否导致过度拟合。我们的研究分三步进行:

  1. 首先,我们需要建立一个新的测试集,将我们新测试集的子类分布与原始CIFAR-10数据集仔细匹配。
  2. 收集了大约2000张新图像后,我们在新的测试集上评估了30个图像分类模型的性能。结果显示了两个总体现象。一方面,从原始测试集到我们的新测试集的准确度都有明显下降。例如,VGG和ResNet架构在我们新的测试集上从93%的精确度下降到85%左右。另一方面,我们发现现有测试集的性能对新测试集的性能具有高度的预测性。即使是对CIFAR-10的小幅增量改进,也会有明显的泛化误差。
  3. 由于原始精度和新精度之间的差异,第三步调查了解释这种差距的多种假设。一个自然而然的猜想是,重新调整标准超参数可以恢复一些观察到的差距,但我们发现只有一小部分效果提高了约0.6%。虽然这个和进一步的实验可以解释一些准确度损失,但仍然存在重大差距。

总体而言,我们的结果描绘了当代机器学习的进展情况。尽管多年来一直在适应CIFAR-10测试集,一直没有停滞。顶级的模型仍然是一个最近的Shake-Shake网络,具有Cutout正则化。而且,在新的测试集上,它比标准ResNet的优势从4%增加到8%。这表明,目前研究方法“长时间攻击”一套测试集的过度拟合效果令人惊叹。
但是,我们的结果也对当前分类器的鲁棒性产生怀疑。尽管我们的新数据集只呈现一分钟的分布式转变,但广泛使用的模型的分类准确性显着下降。例如,前面提到的VGG和ResNet架构的精度损失对应于CIFAR-10的多年进展。不过,请大家注意,由我们的实验引起的分配转移既不是怀有敌意的,也不是不同数据源的结果。因此,即使在良性环境中,数据分布的转变也会带来严峻的挑战,并且会对目前的模式真正推广到什么程度提出更多的质疑。

2 正式实施

在我们描述CIFAR-10的具体实验之前,我们首先对我们感兴趣的问题进行形式化描述。 我们采用标准分类设置,并通过标记示例(x,y)假设存在“真实”基础数据分布D. 目标是找到一个最小化总数损失的模型f

(9)LD(f)=E((x,y)D)[I[f(x)y]].

由于我们通常不知道分布D,所以我们通过从分布D中抽取的测试集Dtest来测量受训分类器的性能:
(10)LDtest(f)=1|Dtest|(x,y)DtestI|f(x)y|.

对于足够大的测试集Dtest,标准集中度结果显示,只要分类器(f)不依赖DtestLDtest(f)就是LD(f)的一个很好的近似值。这可以说是机器学习的核心假设,因为它使我们可以这样说,我们的分类器f是真正推广的(而不是说只是存储数据)。所以如果我们从相同的分布D中收集一个新的测试集Dtest测试,我们可以期望精度匹配由内在抽样误差给出的置信区间:
(11)LD(f))=LDtest(f)LDtest(f).

然而,由于我们通常缺乏对这种分布的精确定义,所以很难讨论何时从完全相同的分布D中提取新的测试集。所以要真正获得独立同分布的测试集合,理想的时候,我们会收集一个更大的初始数据集,然后我们随机分成DtrainDtestDtest测试。 遗憾的是,我们通常没有这样精确的设置来重现新测试集的准确性的数字。在本文中,我们通过重复最初从大数据集中导出DtrainDtest的数据集创建过程,尽可能地模拟数据生成分布D. 虽然这种方法不一定会生成一个独立同分布的测试集。但是,从原始数据生成分布中抽取,这是将会是一个近似值。

3 数据集创建方式

为了研究当前图像分类器如何更好地推广到真正没有学习过的数据集,我们为CIFAR-10图像分类数据集收集了一个新的测试集。选择CIFAR-10有多种原因:

  • 目前,CIFAR-10是机器学习中使用最广泛的数据集之一,并可作为许多计算机视觉方法的测试集。CIFAR-10是NIPS-2017(MNIST之后)中第二个最常用的数据集。
  • CIFAR-10的数据集创建过程透明且有据可查。更重要的是,CIFAR-10是从具有更多细粒度标签的更大的Tiny Images存储库中抽取。这使我们可以进行一项实验,使我们的新测试集中的各种形式的分布变化程度最小化。
  • CIFAR-10提出了一个足够困难的问题,因此数据集仍然是积极研究的主题(参见)。此外,还有大量的分类模型可以获得显着不同的准确性成绩。由于这些模型的代码是在各种开源代码库中发布的,因此它们可以被视为独立于我们的新测试集。

3.1 背景

在我们描述我们如何创建新测试集之前,我们简要回顾一下CIFAR-10和Tiny Images的相关背景。
Tiny Image 该数据集包含8千万个分辨率为3232的RGB彩色图像。图像由大约75,000个关键字组成,这些关键字与WordNet数据库中的非抽象名词相对应。每个关键字都被输入到多个互联网搜索引擎中,每个关键词收集大约1,000到2,500个图像。需要注意的是,Tiny Images是一个相当嘈杂的数据集。根据某个关键字提交的许多图像并不清楚(或根本不对应)相应的关键字。
CIFAR-10 CIFAR-10数据集的目标是创建一个干净标记的Tiny Images子集。为此,研究人员组建了一个由10个类组成的数据集,每个类有6,000个图像。这些类是飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船和卡车。标准的训练/测试划分是均衡的,包含50,000个训练图像集和10,000个测试图像集。
CIFAR-10的创建过程已有详细记录。首先,研究人员通过使用WordNet中的下位关系为每个类汇集了一组相关的关键字。由于直接使用来自Tiny Images的相应图像不会提供高质量的数据集,因此研究人员聘请学生注释人员标注了来自Tiny Images的图像。标签说明可以在的附录C中找到,并且包括一组特定的指导(例如,图像不应该包含相应类别的两个对象)。研究人员验证由注释者选择的图像的标签后,通过“l2最近邻居搜索”从数据集中去除近似重复的数据。

3.2 构建新的测试集

我们的总体目标是创建一个新的测试集,尽可能接近与原始CIFAR-10数据集相同的分布。这里至关重要的一点是,CIFAR-10数据集没有耗尽其中的任何微型图像关键字。因此,通过从与CIFAR-10相同的关键字收集新图像,我们的新测试集可以匹配原始数据集的子类分布。
了解子类分布。作为第一步,我们确定了CIFAR-10数据集中每个图像的Tiny Image关键字。一个简单的最近邻居搜索就足够了,因为CIFAR-10中的每个图像在Tiny Images中都有精确的重复(“2-distance 0”)。根据这些信息,我们为每个类汇总了25个最常用关键词的列表。我们决定每个类有25个关键词,因为250个关键词占CIFAR-10的95以上。此外,我们希望避免意外地创建一个使用率较少的关键字数据集,这些关键词在CIFAR-10数据集的使用中很少有学习的样例。
关键字分布可以在附录E中找到。检查这个列表揭示了匹配子类分布的重要性。例如飞机舱中最常见的关键词是stealth bomber,而不是一种可以说是更普通的民用飞机类型。此外,飞机级别的第三个最常见的关键词是stealth fighter。这两种飞机都非常独特。有更多的例子,某些子类有很大的不同,例如,来自fire truck关键字的图像的图像统计信息与dump truck的图像有很大不同。
收集新图像。 确定关键字后,我们收集了相应的图像。为了模拟最初的CIFAR-10收集程序中的学生/研究员的分布并行,我们在本文的两位作者中引入了类似的分布并行。作者A扮演了原始学生注释者的角色,并为250个关键词选择了新的合适图片。为了确保每个关键字的原始图像和新图像之间的紧密匹配,我们构建了一个用户界面,允许作者A首先查看给定关键字的现有CIFAR-10图像,然后从Tiny中剩余的图像中选择新候选图片。作者A遵循原始说明书中的标签指南。作者A为每个关键词选择的一定的图像数量使得我们的最终数据集将包含2,000至4,000张图像。其中我们决定将2,000幅图像作为目标数字,原因有二:

  • 虽然最初的CIFAR-10测试集包含10,000张图像,但对于相当小的置信区间,大小为2,000的测试集已经足够。具体而言,对于准确度90%的保守置信区间(Clopper-Pearson,置信水平95%)具有约1%的大小,其中n=2,000(准确地说,[88:6%;91:3%])。由于我们认为原始测试精度与新测试精度之间的潜在差异只有在测量精度大于1%时才有意义,因此我们认为新的测试集大小为2,000,足以满足我们的研究需求。
  • 与非常罕见的关键字一样,我们的目标是避免意外地创建更困难的测试集。由于一些微小图像关键字只剩下有限的剩余图像,因此我们认为新数据集的使用较小目标尺寸会减少偏差以避免包含更多可疑难度的图像。

作者A选择了一组约9,000个候选图像后,作者B在原始CIFAR-10数据集创建过程中采用了研究人员的角色。具体来说,作者B审查了所有候选图像,并删除了作者B不清楚的图像或者他们认为不符合标签说明的图像(某些标准是主观的)。在这个过程中,少数关键字没有足够的图像来达到n=2,000的阈值。作者B接着通知作者A关于各自的关键字,并且作者A为这些关键词选择了另一组图像。在这个过程中,只有一个关键字,作者A仔细检查微小图像中的所有可用图像。该关键字为alley cat,占整个CIFAR-10数据集的不到0.3%。
fig1 从新的和原始的测试集中进行均衡随机抽取

总设定。在为每个关键词收集足够数量的高质量图像之后,我们从我们的修剪候选集合中抽取了一个随机子集。 抽样程序使得我们的新数据集的关键字级分布与CIFAR-10的关键字级分布相匹配(见附录E)。在最后阶段,我们再次类似于最初的CIFAR-10数据集创建过程,并使用“2个最近邻居”过滤出重复的附近。特别是,我们删除了新数据集中的近似重复数据,以及原始CIFAR-10数据集(训练或测试)中近似重复的图像。后者特别重要,因为我们的重复性研究只有在我们评估真正不可预先学习的数据集时才有意义。因此,我们手动审查了新测试集中每个图像的前10位最近邻居。在删除了我们数据集中的近似重复数据后,我们对各个关键字进行了重新采样,直到此过程收敛到我们的最终数据集。
我们在研究的数据收集阶段没有在我们的新数据集上运行任何分类器。为了确保新数据不依赖于现有的分类器,严格将数据收集阶段与下一个评估阶段分开是非常重要的。

4 模型性能结果

在我们完成新的测试集之后,我们评估了各式各样的图像分类模型。主要目的研究是比较原始CIFAR-10测试集的准确度与我们新测试集下的这些模型的准确度。为此,我们对跨越多年机器学习研究的,收集各种分类器进行了实验。这些模型包括广泛使用的卷积网络(VGG和ResNet),更新的体系结构(ResNeXt,PyramidNet,DenseNet),已发表的最先进的技术(Shake-Drop)和基于RL的超参数搜索(NASNet)推导出的模型。另外,我们还评估了基于随机特征的“浅”方法。总体而言,原始CIFAR-10测试集的精度范围从80%到97%不等。
对于所有深层架构,我们使用这些研究团队先前在线发布的开源代码(参见附录A获取列表)。为避免由于特定模型库或框架造成的一定的偏向性影响,我们还评估了两种广泛使用的体系结构(VGG和ResNets),这些体系结构来自不同深度学习库中实现的两个不同来源。我们还基于随机特征为模型编写了自己的实现。我们的主要结果总结在表1和图2中。我们接下来将描述机器学习研究的两个重要趋势,然后在第6节中讨论我们的结果。

4.1 准确度显着下降

所有的模型从原始测试数据集到新测试集的准确度均有大幅下降。对于指标\textbf{绝对差距}对于原始测试集性能较差的模型,变化差距较大,对于发布CIFAR-10精度较好的模型,精度差距较小。例如,VGG和ResNet架构在其原始精度(约93%)和新精度(约85%)之间存在差距约8%。与此同时,shake-shake-64d-cutout实现了最佳的原始准确度,从97%下降到大约4%,达到93%。虽然精度下降有一些变化,但没有一个模型是明确的异常变化。
就\textbf{相对误差}而言,原始精度较高的模型往往有较大的增加。一些模型,如DARC,shake-shake-32d和resnext-29-4x64d看到一个3倍错误率的增加。对于VGG,AlexNet或ResNet等较简单的模型,相对误差增加范围为1.7倍到2.3倍。我们向读者提供附录C中所有相对错误数字的表格。

4.2 性能的相对顺序几乎没有变化

按照原始和新的准确性对模型进行排序时,总体排名变化不大。具有相似原始精确度的模型往往会看到相似的性能下降。实际上,图2显示了原始精度和新精度之间的关系可以用从最小二乘拟合导出的线性函数很好地解释。模型的新精度大致由以下公式给出:

(12)accnew=(1.62±0.04)accorig65.51%±3.16

另一方面,值得注意的是,一些技术使得新测试集的准确率增加更大。例如,将Cutout data augmentation添加到shake-shake-64d网络中,原始测试集的准确性仅增加0.12%,但新测试集的准确度提高了约1.5%。类似地,将“Cutout”添加到wide-resnet-28-10分类器中,原始测试集的准确性提高了约1%,新测试集的准确性提高了2.2%。再举一个例子,增加ResNet的宽度而不是其深度会为新测试集带来更大的好处。

4.3 线性拟合的一个模型

虽然图2中观察到的线性拟合排除了新测试集与原始测试集相同的分布,但新老测试误差之间的线性关系是惊人的。这种效应有合理的解释。例如,假设原始测试集由两个子种群组成。在“容易”的子种群上,分类器达到了a0的准确度。 “困难”子群是k倍于原始的数据集,那么准确度的差距应该也是和k倍有关。因此,这个子群体的准确性是1k1a0。如果这两个亚集合的相对频率分别为p1和p2,我们得到以下总体准确度:

(13)accorig=p1a0+p2(1k(1a0)).

我们可以将其重写为关于a0的简单线性函数:
(14)accorig=βa0+γ.

实验结果
对于新的测试集,我们还假定混合分布由相同的两个分量的不同比例组成,相对频率现在为q1q2。然后,我们可以将新测试集的准确度写为:
(15)accnew=q1a0+q2(1k(1a0))=βa0+γ.

我们像以前一样将变量收集到一个简单的线性函数中。
现在很容易看出,新的精度确实是原始精度的线性函数:
(16)accnew=ββ(βa0+γ)ββγ+γ=ββaccorig.

我们认为我们没有看到这个混合模型作为一个基本事实解释,而是作为一个说明性的例子,说明原始测试精度和新测试精度之间的线性相关性如何随着数据集之间的小分布偏移而自然产生。实际上,这两个测试集具有更复杂的组成,并且在不同的子群体上具有不同的精度。尽管如此,这个模型揭示了即使在分类器的相对排序保持不变的情况下,分布转换也可能存在令人惊讶的敏感性。我们希望这种分配转变的敏感性可以在未来的工作中通过实验验证。
新测试集的模型精度与原始测试集的模型精度

5 解释这个变化

由于原始精度和新精度之间的差距相当大,我们研究了多个假设来解释这种差距。

5.1 统计错误

首先自然的猜测是差距仅仅是由于统计波动性影响。但如前所述,我们新测试集的样本量足够大,95%置信区间的大小约为1.2%。由于原始CIFAR-10测试精度的95%置信区间甚至更小(对于90%的分类准确度,大致为0.6%;对于97%的分类准确度,大约为0.3%),我们可以排除统计误差作为发生不同数据集上明显变化的唯一解释。

5.2 近似重复清除的差异

如第3.2节所述,原始CIFAR-10和我们的数据集创建过程的最后一步是近乎重复的删除。在删除我们的新测试集与原始CIFAR-10数据集之间的近似重复数据时,我们注意到后者包含的图像是我们将排除的近似重复数据。CIFAR-10训练和测试之间的大量近似重复,加上我们更严格的近似重复删除,可以解释一些精度下降。事实上,我们在CIFAR-10测试集中发现了约800幅图像,我们将其归类为接近重复的图像。此外,大多数分类器在这些近似重复数据上的准确度在99%到100%之间(回想大多数模型达到100%的训练误差)。但由于800幅图像仅包含原始测试集的8%,因此近似重复图像最多可以解释观察到的差异的1%。
至于完整性,我们描述了我们详细查找近似重复的流程。对于每个测试图像,我们通过目测检查了“2距离”和SSIM(结构相似性)度量标准中前10位最近的邻居。我们将原始测试集与CIFAR-10训练集相比较,并将我们的新测试集与原始训练集和测试集进行比较。如果两个图像在同一个方面中具有相同的特征,我们认为图像对是近似重复的。我们包含具有不同缩放比例,色彩比例,水平或垂直方向拉伸,或垂直或水平位置小移动的图像。如果物体旋转或姿态不同,我们不会将它包含为近似重复。

5.3 超参数调整

另一个猜想是我们可以通过重新调整模型的超参数来恢复某些缺失的准确性。为此,我们对VGG模型的多个参数进行了网格搜索。我们选择了三个已知会强烈影响测试集性能的标准超参数:\textbf{初始学习速率,下降率(dropout)和权值递减}。 vgg16-keras体系结构在网络的不同层上使用不同的丢失量,因此我们选择调整丢失量的乘法缩放因子,从而使不同层的丢失率保持不变。 我们根据调整到原始测试集的值初始化超参数配置(学习率= 0.1,丢失率= 1,权重衰减= 5e-4),并对以下值执行网格搜索:

  • 学习率在集合0.0125,0.025,0.05,0.1,0.2,0.4,0.8
  • 下降率在集合0.5,0.75,1.125,1.75
  • 权值减少在集合5e5,1e4,5e4,1e3,5e3

我们确保最佳性能永远不会超出我们为单个超参数测试的任何范围的极端点。但是,我们没有发现新测试集的准确度更高(最大的改进是85.25%至85.84%)。言外之意就是,参数调整和我们的结果没有必然联系,所有的测试均是在统一参数变化集合中的

5.4 检查难度图像

我们还可能通过包含一组“更难”的图像而意外地创建了一个更加困难的测试集。为了探索这一点,我们自习检查了大多数模型分类错误的图像集。我们发现所有新图像都是人类可识别的自然图像。附录B中的图3显示了我们的新测试集中没有模型正确分类的困难图像的示例。

5.5 对部分新测试集进行训练

如果我们的新测试集来自与原始CIFAR-10数据集显着不同的数据分布,那么对我们的新测试集的一半以及原始训练集进行再训练可以提高新测试集中的延期部分的准确性分数。我们通过随机绘制包含来自新测试集的1010个图像的类平衡分割来进行此实验。然后,我们将这些图像添加到完整的CIFAR-10训练集并重新训练vgg16-keras模型。训练结束后,我们在新测试集的1011张图像上测试模型。我们使用我们的测试集中随机选择的不同分割次数重复该实验两次,获得85.06%和85.36%的准确度(相比之下,没有额外的训练数据的准确率为84.9%)。这提供了进一步的证据,证明我们的新测试集与原始CIFAR-10数据集之间没有大的分布变化
言外之意是允许一些新的数据集进行训练,结果并没有特别好的改善。

5.6 交叉验证

由于交叉验证是衡量模型泛化能力的原则方法,我们测试了原始CIFAR-10数据集上的交叉验证是否可以预测新模型在我们新测试集上的错误。我们通过将训练集随机分成5个类,平衡分割来创建交叉验证数据。然后,我们随机将5个训练分组中的4个与原始测试集合一起混合使用。从训练集中分离出来的余下数据成为新的测试集。
我们在我们自己创建的5个新数据集中重新训练了模型vgg-15-BN-64,wide-resnet-28-10和shake-shake-64d-cutout。表2中报告了精度。每个交叉验证分组的准确度与原始测试集的准确度没有很大差异。
模型交叉验证分割的准确性

6 讨论

过度拟合。我们的实验是否显示过度拟合?这可以说是解释我们的结果时的主要问题。准确地说,我们首先定义过度拟合的两个概念:

  • 训练集过度训练。量化过度拟合的一种方法是培训准确性和测试准确性之间的差异。请注意,我们实验中的深度神经网络通常达到100%的训练精度。所以这种过度拟合的概念已经出现在现有的数据集上。
  • 测试集过度拟合。过度拟合的另一个概念是测试准确性和基础数据分布的准确性之间的差距。通过将模型设计选择适配于测试集,这里值得关注的是,我们隐含地将模型拟合范围扩大到测试集。然后,测试准确性将失去其有效性,从而很难准确衡量真正没有预先学习的数据集,其这样的性能也不会很好。

由于机器学习的总体目标是推广到不能预先学习的数据,我们认为通过测试集自适应过度拟合的第二个概念更重要。令人惊讶的是,我们的结果显示在CIFAR-10上的却说明没有这种过度拟合的迹象。尽管在这个数据集上有多年的竞争适应性,但拥有泛化误差的数据并没有停滞。事实上,我们新测试系列中性能最好的模型比更多已建立的基准数据集更具优势。尽管这种趋势与通过适应性过度拟合的结果相反。虽然一个确定的图片需要进一步的复制实验,但我们认为我们的结果支持基于竞争的方法来提高识别的准确性。
我们注意到,可以阅读Blum和Hardt的Ladder算法的分析来支持这一说法。事实上,他们表明,加入对标准机器学习的少量修改可以避免过度拟合,可以通过积极的适应性训练来实现。我们的结果显示,即使没有这些修改,基于测试错误的模型调整也不会导致标准数据集过度拟合。
分类分区转化。尽管我们的结果不支持基于适应性的过拟合的假设,但仍需要解释原始准确性分数和新准确性分数之间的显着差距。我们认为这种差距是原始CIFAR-10数据集与我们新测试集之间的小分布转换的结果。尽管我们努力复制CIFAR-10创建过程,但这种差距很大,影响了所有模型,并且出现这种情况。通常,对于数据生成过程中的特定变化(例如,拍摄时照明条件的变化)或对抗设置中出现的问题。我们的实验更加友好,并没有带来这些挑战。尽管如此,所有模型的准确度下降了4-15%,而错误率的相对增长却高达3倍. 这表明目前的CIFAR-10分类器难以推广到图像数据的自然分区之中。
未来的工作。具体的未来实验应该探索竞争方法是否同样适应其他数据集(例如ImageNet)和其他任务(如语言建模)的过度拟合。这里的一个重要方面是确保新测试集的数据分布尽可能地接近原始数据集。此外,我们应该了解什么类型的自然发生的分布变化对图像分类器是具有挑战性的。例如,在CIFAR-10模型中是否存在某些亚集合,但对人类来说显得微不足道?在4.3节中,我们描述了一个基于子集变化的简单混合模型,可以作为此类调查的起点。
更广泛地说,我们将我们的结果看作是对机器学习研究进行更全面评估的动机。目前,主要的范例是提出一种新的算法并评估其在现有数据上的性能。不幸的是,这些改进在多大程度上可以广泛适用,通常很难被人接受理解。为了真正理解泛化问题,更多的研究应该收集有洞察力很好的新数据并评估这些数据集的现有算法。由于我们现在在开放源代码库中拥有大量预先上传的分类器和分类模型,因此此类研究将符合完善的统计有效研究标准。重要的当前区分机器学习中的当前可重复性努力,其通常集中在计算重现程度上,即在相同的测试数据上运行发布的代码。相比之下,像我们这样的泛化实验通过评估分类器在真实新数据集(类似于招募新参与者进行医学或心理学重现性实验),重点关注的是统计可重复性的实验还是寥寥无几的。

引用

1
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页