Data Distillation: A Survey

UnknownBody

已于 2023-06-02 15:30:13 修改

阅读量1.2k

点赞数

分类专栏： Survey Paper 文章标签：人工智能深度学习机器学习

于 2023-06-01 18:36:41 首次发布

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/130982941

版权

Survey Paper 专栏收录该内容

262 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文概述了数据蒸馏的概念，它旨在通过合成简洁的数据摘要来替代大规模数据集，以加速模型训练、提高研究效率和生态可持续性。数据蒸馏分为元模型匹配、梯度匹配、轨迹匹配和分布匹配等多种框架，每种框架有其独特优势和挑战。目前，数据蒸馏已应用于图像、文本、图和推荐系统等领域，同时在差分隐私、神经结构搜索和持续学习中展现出潜力。未来的研究方向包括扩展到新的数据模式、提高可扩展性和优化方法的改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是蒸馏学习综述系列的第二篇文章，Data Distillation: A Survey的一个翻译

摘要

深度学习的普及导致了大量海量、多样的数据集的管理。尽管在单个任务上具有接近人类的表现，但在大型数据集上训练参数饥饿模型会带来多方面的问题，例如（a）高模型训练时间；（b）研究迭代缓慢；以及（c）生态可持续性差。作为一种替代方案，数据蒸馏方法旨在合成简洁的数据摘要，这些摘要可以作为原始数据集的有效替代品，用于模型训练、推理、架构搜索等场景。在本次综述中，我们提出了数据蒸馏的正式框架，并提供了现有方法的详细分类。此外，我们还介绍了不同数据模态的数据蒸馏方法，即图像、图形和用户-项目交互（推荐系统），同时还确定了当前的挑战和未来的研究方向。

1 引言

（松散）定义1。（数据蒸馏）旨在合成微小高保真数据摘要的方法，从给定的目标数据集中蒸馏最重要的知识。这种蒸馏的摘要经过优化，可以作为原始数据集的有效替代品，用于高效准确的数据使用应用，如模型训练、推理、架构搜索等。
最近的“规模就是一切”观点认为，在更大的数据集上训练更大的模型（即由更大量的参数组成）