精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”

标题:《ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object》
论文:https://arxiv.org/pdf/2403.18775.pdf
主页:https://chenshuang-zhang.github.io/imagenet_d/
源码:https://github.com/chenshuang-zhang/imagenet_d
数据:https://drive.google.com/file/d/11zTXmg5yNjZwi8bwc541M1h5tPAVGeQc/view

导读

本文作为被CVPR 2024接收的论文,幸运地成为324篇Highlight之一。

这篇论文提出了利用diffusion model作为data source来测评模型鲁棒性。提出的ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,其中便包括了 CLIP,MiniGPT-4和LLaVa-NeXT等主流模型。

ImageNet-D从新的角度揭露了当前模型的failure case,启发未来模型升级。同时,ImageNet-D对于未来如何利用diffusion model生成更多的测试基准提供了参考。

本文第一作者Chenshuang Zhang和通讯作者Chengzhi Mao为清华大学校友,欢迎访问论文github。如果b本工作对您有所帮助或者启发,请为该github仓库点亮一颗星,欢迎引用和交流。

背景与动机

近年来,神经网络在从图像分类到视觉问题回答等任务中取得了显著的成就。随着神经网络的广泛应用,如何评估神经网络的鲁棒性出于安全原因变得越来越重要。

为了评估神经网络的鲁棒性,ObjectNet收集了由人工拍摄的真实世界物体图像,这一过程既耗时又费力。为了提高数据收集效率,过于的研究提出使用合成图像作为测试图像。例如:

  • ImageNet-C引入了一系列low level的corruption,如高斯噪声和模糊。
  • ImageNet-9使用简单的剪切和粘贴技术创建关于物体背景的鲁棒性基准,但这些图像并不现实。
  • Stylized-ImageNet通过改变ImageNet图像的纹理生成新图像,却难以控制其他的因素,如图像背景等。

为什么ImageNet-D很关键?

简单来说,ImageNet-D充分利用 diffusion model 生成高质量的图像作为数据来源,从中挖掘困难样本组成最终数据集。

实验结果表明,ImageNet-D 有效降低了大量模型的测试准确率,包括最新的大模型 CLIP 和 LLaVa-NeXT等。

ImageNet-D从一个崭新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。

同时,整体数据集构建流程高效而灵活,可快速扩展到新的测试任务,为未来不同任务和场景构建测试基准提供了参考。

数据集图像示例

ImageNet-D数据集包含来自113个数据类别的4835张图像,有着不同的背景(background)、纹理(texture)和材料(material)组成. 和以往的合成数据集相比,ImageNet-D图像质量更高,且生成更为灵活可控。更多图像示例参见论文及github。

数据集构建框架

如上所述,ImageNet-D 基于 Stable Diffusion 模型生成。

首先,为了获得更加多样性的样本,论文获取了大量图像类别和属性(如背景)组合。

随后,本文利用了已知模型进行样本筛选,即若一张图片使得全部已知模型分类错误,那么将此图片加入最终测试集。

最后,引入了人工校验去除质量不佳的样本,并采用Amazon Mechanical Turk进行最终质量校验。

实验

首先,可以看到,和ImageNet-D相比,其有效降低了各个模型的test accuracy,降低幅度最高达60%。

其次,通过将ImageNet-D图像输入到大模型MiniGPT-4和LLaVa-1.5中,可以看到,它们对于输入图像中主要物体理解错误,均输出了错误答案:

以上实验结果表明,ImageNet-D对于当前视觉模型和VQA模型来说很有难度,其从一个新的角度展示了模型的failure cases,有利于启发未来的模型升级。

最后,一起看下更多结果和讨论。

模型准确率提高。本文从多个角度分析了如何提高ImageNet-D上的测试准确率。例如,我们发现改变模型结构,如ConvNext,并不能全面提高ImageNet-D准确率。增加模型训练数据对准确率提高有所帮助。更多实验和分析见论文。

最近邻搜索。除了图像分类任务外,ImageNet-D同时揭露了模型在最近邻搜索(nearest neighbor search)上的failure case。将ImageNet-D中图像作为query图像,基于CLIP模型在ImageNet中搜索最相似的图像,返回结果如下图所示。有趣的是,CLIP并为返回于query图像物体类别一致的图像,返回图像与query图像背景相似,或者物体类别与query图像背景有关。

利用生成图片作为训练数据。在数据集生成过程中,我们选取已知模型的共同错误(shared failures)作为最终测试集。为了测试生成图片对于模型训练的作用,我们将已知模型分类正确的图片加入训练集进行模型训练。如下表所示,有趣的是,利用生成图片训练模型不仅提升了ImageNet-D的分类准确率,对于自然图像组成的ObjectNet数据集分类准确率有1.34%提升。更多实验细节参见论文。

结论

本文基于diffusion models,提出了一个新的测试数据集ImageNet-D。通过和已有测试集相比,ImageNet-D有着更高的图像质量,数据集构建流程高效且灵活。

实验结果表明,ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。

ImageNet-D从新的角度揭露了当前模型的failure case,启发未来模型升级。同时,ImageNet-D对于未来如何利用diffusion model生成更多的测试基准提供了参考。

  • 17
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
AlexNet是一种卷积神经网络模型,是在2012年ImageNet比赛中取得了显著成就的SOTA(State-of-the-art)模型。在猫狗分类任务中,AlexNet也被广泛应用,并取得了很好的效果。 AlexNet模型由5个卷积层、3个全连接层和最后的softmax层组成。在前面的卷积层中,使用了较大的卷积核和步幅,以增加感受野的大小,同时使用了ReLU激活函数来引入非线性。此外,AlexNet还采用了两个GPU进行训练,以提高训练速度。这些创新使得AlexNet在分类任务中取得了非常好的效果。 在猫狗分类任务中,AlexNet模型能够有效地对图像进行特征提取和分类。首先,AlexNet通过卷积层从输入图像中提取出局部特征,如边缘和纹理等。然后,通过池化层对特征进行下采样,从而减少特征的维度和模型的复杂度。最后,通过全连接层将提取到的特征进行分类,并输出分类结果。 AlexNet在猫狗分类任务中表现出了很好的性能。通过在大规模数据集上的训练,AlexNet能够学习到更加鲁棒和泛化性强的特征表示,使得在新的图像上进行分类时能够取得较高的准确率。此外,AlexNet的创新设计和训练策略也为后续的深度学习模型的发展奠定了基础。 总而言之,AlexNet是一种在猫狗分类任务中取得了SOTA成果的卷积神经网络模型。它通过深层网络的设计和训练方法,能够有效地从图像中提取特征,并实现准确的分类。AlexNet的成功不仅在猫狗分类任务中有所体现,同时也对深度学习的发展产生了深远影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值