Data Distillation: A Survey

本文是蒸馏学习综述系列的第二篇文章,Data Distillation: A Survey的一个翻译

摘要

深度学习的普及导致了大量海量、多样的数据集的管理。尽管在单个任务上具有接近人类的表现,但在大型数据集上训练参数饥饿模型会带来多方面的问题,例如(a)高模型训练时间;(b) 研究迭代缓慢;以及(c)生态可持续性差。作为一种替代方案,数据蒸馏方法旨在合成简洁的数据摘要,这些摘要可以作为原始数据集的有效替代品,用于模型训练、推理、架构搜索等场景。在本次综述中,我们提出了数据蒸馏的正式框架,并提供了现有方法的详细分类。此外,我们还介绍了不同数据模态的数据蒸馏方法,即图像、图形和用户-项目交互(推荐系统),同时还确定了当前的挑战和未来的研究方向。

1 引言

(松散)定义1。(数据蒸馏)旨在合成微小高保真数据摘要的方法,从给定的目标数据集中蒸馏最重要的知识。这种蒸馏的摘要经过优化,可以作为原始数据集的有效替代品,用于高效准确的数据使用应用,如模型训练、推理、架构搜索等。
最近的“规模就是一切”观点认为,在更大的数据集上训练更大的模型(即由更大量的参数组成),并使用更大的计算资源是推进人工智能前沿的唯一关键。另一方面,一个理由充分、有原则的解决方案可以说更适合扩大规模,从而更快地取得进展。数据蒸馏(定义1)是一项植根于后一学派的任务。显然,规模观点仍然成立,因为如果我们继续增加数据量(尽管现在已经压缩,质量更高)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值