ImageNet 分类器能否泛化到 ImageNet？ (论文解读)

最新推荐文章于 2024-09-12 13:34:11 发布

YannicKilcher

最新推荐文章于 2024-09-12 13:34:11 发布

阅读量189

点赞数 1

文章标签： AI-native inscode AI编程 gpt DALL·E 2

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141179381

版权

ImageNet 测试集V2：一个令人费解的现象这篇论文探讨了 ImageNet 数据集的一个有趣现象：在 ImageNet 测试集 V1 上表现良好的模型，在新的测试集 V2 上表现却不如预期，并且这种下降并非简单的过拟合现象。
论文的核心内容:
研究者收集了一个新的 ImageNet 测试集 V2，并用它来评估在 ImageNet 测试集 V1 上表现良好的模型。
令人惊讶的是，尽管 V1 和 V2 的收集方式基本一致，但模型在 V2 上的准确率普遍下降。
这种下降并非简单的过拟合现象，因为在 V1 上表现更好的模型，在 V2 上的下降程度反而更小。
论文排除了过拟合和泛化差距作为主要原因，并将这种现象归因于 V1 和 V2 之间的分布差距。
论文认为，Mechanical Turk 人工标注过程中的选择频率差异可能是造成分布差距的主要原因。
通过对不同选择频率阈值下模型表现的分析，论文发现选择频率阈值确实会影响测试集的难度。
尽管论文提出了选择频率差异的假设，但为何相同收集流程下仍会出现这种现象，仍然是一个谜。
论文最后提出了一个模型，解释了这种线性关系可能源于 V1 和 V2 之间的难度差异。
论文的意义:
揭示了 ImageNet 测试集 V1 可能存在潜在的偏差，导致模型在 V2 上表现下降。
对模型评估方法提出了新的思考，需要更加关注测试集的分布差异。
为未来的研究提供了新的方向，例如如何构建更具泛化能力的测试集。
论文的不足:
尽管论文进行了大量实验，但对这种现象的根本原因仍然没有完全解释。
论文提出的模型只是一个理论解释，需要更多实证研究来验证其有效性。
总结:
这篇论文揭示了 ImageNet 数据集的一个令人费解的现象，并引发了对模型评估方法的思考。虽然论文没有完全解释这种现象的根本原因，但它为未来的研究提供了新的方向，并提醒我们需要注意测试集的分布差异。

世界是否过度拟合了 ImageNet？如果我们以完全相同的方式收集另一个数据集会怎样？这篇论文给出了一个令人惊讶的答案！论文：https://arxiv.org/abs/1902.10811数据：https://github.com/modestyachts/ImageNetV2
摘要：我们为 CIFAR-10 和 ImageNet 数据集构建了新的测试集。这两个基准数据集近十年来一直是密集研究的焦点，这增加了过度拟合过度重复使用的测试集的风险。通过紧密遵循原始数据集创建过程，我们测试了当前分类模型在多大程度上能够泛化到新数据。我们评估了各种各样的模型，发现 CIFAR-10 上的准确率下降了 3% - 15%，ImageNet 上的准确率下降了 11% - 14%。然而，在原始测试集上的准确率提高转化为在新测试集上的更大提升。我们的结果表明，准确率下降不是由适应性造成的，而是由模型无法泛化到比原始测试集中发现的图像略微“更难”的图像造成的。