斯坦福、Meta：用知识蒸馏给数据集瘦身，剪掉ImageNet 20%数据量，模型性能不下降！...

最新推荐文章于 2024-08-10 08:46:40 发布

机器学习与AI生成创作

最新推荐文章于 2024-08-10 08:46:40 发布

阅读量232

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247497271&idx=2&sn=0fc25e8d2d22b70f13f042507f357ab5&chksm=fe2a548cc95ddd9aeebe5b939eb9da81d6d7b94d891c8097c809c23a9790fc3fc6c249469a01&scene=126&&sessionid=0

版权

神经网络机器学习人工智能深度学习大数据

明敏发自凹非寺
转载自：量子位（QbitAI）

这两天，推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金（折合人民币约167万元），悬赏什么任务能让模型越大、性能反而越差。

评论区里已经讨论得热火朝天了。

不过这事儿倒也不是单纯整活，而是为了进一步探索大模型。

毕竟，这两年大家越发意识到，AI模型不能单纯比“大”。

一方面，随着模型的规模越来越大，训练付出的成本开始呈现指数型增长；

另一方面，模型性能的提升也已经逐渐到达瓶颈期，哪怕想要让误差再下降1%，都需要更多的数据集增量和计算增量。

比如对于Transformer而言，交叉熵损失想要从3.4奈特降低到2.8奈特，就需要原本10倍量的训练数据。

针对这些问题，AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们，最近想到了从数据集上切入。

他们提出，对数据集进行知识蒸馏，使得数据集规模虽小，但还能保持模型性能不下降。

实验验证，在剪掉ImageNet 20%的数据量后，ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示，这也为AGI实现找出了一条新路子。

超大数据集的效率并不高

论文：https://arxiv.org/abs/2206.14486

本文提出的办法，其实就是对原本的数据集进行优化精简。

研究人员表示，过去许多方法都表明，许多训练示例是高度冗余的，理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标，可以根据训练示例的难度或重要性对它们进行排序，并通过保留其中一些难度高的示例，就能完成数据修剪。

基于前人的发现和研究，此次学者们进一步提出了一些可具体操作的方法。

首先，他们提出了一种数据分析方法，可以让模型只学习部分数据，就能实现同等的性能。

通过数据分析，研究人员初步得出结论：

一个数据集怎样修剪效果最好？这和它本身的规模有关。

初始数据量越多，越应该保留难度高的示例；

初始数据量越少，则应该保留难度低的示例。

而在保留困难示例进行数据修剪后，模型和数据规模的对应关系，可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下，还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源，从一种分配状态调整到另一种分配状态，在没有使任何一个人变差的前提下，至少使得一个人变得更好。

在本文中，调整分配状态即可理解为，修剪多少比例的数据集。

然后，研究人员进行了实验来验证这一理论。

从实验结果来看，当数据集越大，修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上，ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到，数据集规模保留80%的情况下，和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来，研究人员聚焦在ImageNet上，对10种不同情况进行了大规模基准测试。

结果表明，随机修剪以及一些修剪指标，在ImageNet上的表现并不够好。

所以更进一步，研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏（教师学生模型），这是模型压缩的一种常见方法。

结果显示，在自监督方法下，它在找数据集中简单/困难示例上的表现都还不错。

使用自监督方法修剪数据后，正确率明显提高（图C中浅蓝色线）。

还存在一些问题

不过在论文中，研究人员也提到，虽然通过如上方法可以在不牺牲性能的情况下修剪数据集，但是有些问题仍旧值得关注。

比如数据集缩小后，想要训练出同等性能的模型，需要的时间可能会更长。

因此，在进行数据集修剪时，应该平衡缩减规模和训练增长时间两方面因素。

与此同时，对数据集进行修剪，势必会丧失一些群体的样本，由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli，是量子神经网络科学家。

他现在是斯坦福大学应用物理学教授、谷歌客座研究教授。

此前，他在斯坦福读本科期间，同时学习了计算机科学、数学和物理三个专业，之后拿下了电气工程与计算机科学硕士学位。

猜您喜欢：

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉前沿弄潮儿！

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

机器学习与AI生成创作

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
斯坦福、Meta：用知识蒸馏给数据集瘦身，剪掉ImageNet 20%数据量，模型性能不下降！...

明敏发自凹非寺转载自：量子位（QbitAI）这两天，推特上一个任务悬赏火得一塌糊涂。一家AI公司提供25万美金（折合人民币约167万元），悬赏什么任务能让模型越大、性能反而越差。评论区里已经讨论得热火朝天了。不过这事儿倒也不是单纯整活，而是为了进一步探索大模型。毕竟，这两年大家越发意识到，AI模型不能单纯比“大”。一方面，随着模型的规模越来越大，训练付出的成本开始呈现...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。