数据集蒸馏Dataset Distillation

文章来源  机器之心 编辑部

近期由北海道大学的 Dr. Guang Li,爱丁堡大学的 Dr. Bo Zhao 和 MIT 的 Dr. Tongzhou Wang 共同发起的数据集蒸馏项目总结了数据集蒸馏领域所有优秀论文以及开源代码。

数据集蒸馏研究简介

数据集蒸馏是生成小数据集的任务,以便在其上训练的模型在原始大数据集上实现高性能。数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证 / 测试集)上在该蒸馏数据集上训练的测试模型进行评估。

eae5afe6218433eacf6c3fd90d73f94d.png

数据集蒸馏问题设定

这项任务最初是在 Dr. Tongzhou Wang 2018 年的论文 Dataset Distillation [1] 中介绍的,改论文同时提出了通过优化步骤使用反向传播的算法。由于最初算法的局限性,当时仅仅可以在一些简单数据集如 MNIST,CIFAR-10 上进行蒸馏操作且准确率比较低。这也是最初的 Dataset Distillation 没有被一些 AI 顶会 (NeurIPS/ICCV/ICLR) 收录的原因。

f88d678c9fee4030ed5c8a77eeeeae4e.png

最初的数据集蒸馏效果

一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,隐私保护,持续学习,神经架构搜索等)。其中,Dr. Guang Li 最先将数据集蒸馏应用于医学图像领域,并对其在隐私保护方面的特性做了探索,该研究通过将十几万张胃部 X 光图像蒸馏到只有 3 张并达到了很好的胃炎检测效果,研究成果发表于 ICIP 2020 [2].

b563d206f51ae5b40641c7727ac32675.png

匿名化的胃部 X 光蒸馏图像

2021 年后,数据集蒸馏在研究界、许多研究所和实验室中越来越受到关注。现在每年都有更多的论文发表。这些精彩的研究一直在不断改进数据集蒸馏并探索其各种变体和应用。其中最具有突破性的研究之一是由 Dr. Bo Zhao 在 ICLR 2021 中提出的 Dataset Condensation,该论文首次提出通过梯度匹配策略来蒸馏数据集并大大提升了测试准确率以及泛化能力 [3].

f14f49676cad2428dd999e84f0f6bdef.png

基于梯度匹配的数据集缩合算法

最近由 CMU,MIT,UC Berkeley 的学者们发表的一篇论文首次实现了对 ImageNet 的蒸馏并又一次大幅提升了蒸馏数据集的测试效果, 该成果发表于 CVPR 2022 [4]。

2d239efdc392e61cbc9b52ffe9dfeea4.jpeg

ImageNet 上的蒸馏效果

对于目前数据集蒸馏领域的巨大进展 Dr. Tongzhou Wang 表示非常惊喜并在推特上对 Awesome-Dataset-Distillation 项目进行了介绍。

6e13dd671ccd6e240903ccff73bee49c.png

299aac634e3a11d6815ca7646952f896.png

1e8e8ec3ecac7815d44950c7096f4b92.png

Dr. Tongzhou Wang 在推特上对数据集蒸馏项目的介绍

在 Awesome-Dataset-Distillation 项目完成后,短短一个月的时间在 GitHub 上已经获得了 300Star,受到了国内外很多知名学者的关注。此外,上个月被外媒选为八月份最受关注的 AI 研究之一。

  • 数据集蒸馏的项目地址:https://github.com/Guang000/Awesome-Dataset-Distillation

  • Dr. Guang Li (Hokkaido University) :https://www-lmd.ist.hokudai.ac.jp/member/guang-li/

  • Dr. Bo Zhao (The University of Edinburgh):https://bozhaonanjing.wixsite.com/mysite

  • Dr. Tongzhou Wang (MIT):https://www.tongzhouwang.info/

[1] Wang, Tongzhou, et al. "Dataset distillation." arXiv preprint arXiv:1811.10959.

[2] Li, Guang, et al. "Soft-label anonymous gastric x-ray image distillation." ICIP 2020.

[3] Zhao, Bo, et al. "Dataset Condensation with Gradient Matching." ICLR 2021.

[4] Cazenavette, George, et al. "Dataset distillation by matching training trajectories." CVPR 2022.

猜您喜欢:

74a6ea61efc262d01dfdccef6d9d0485.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

0e6d1017d8741d9e6db728b1dd824212.jpeg

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值