喜提CVPR 2025满分！数据蒸馏取得新突破！速度up20倍，GPU占用仅2G

最新推荐文章于 2025-05-03 09:07:35 发布

深度之眼

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.3k

点赞数 19

分类专栏：人工智能干货深度学习干货文章标签：人工智能深度学习机器学习数据蒸馏

本文链接：https://blog.csdn.net/weixin_42645636/article/details/146048155

版权

深度学习干货同时被 2 个专栏收录

663 篇文章

订阅专栏

人工智能干货

636 篇文章

订阅专栏

敢信一块2080Ti就能做大模型数据蒸馏？上交大提出的全新数据集蒸馏方法NFCM做到了，不仅速度提升了20倍，GPU占用更是只有2G！相关论文获得了CVPR 2025满分！

作为DeepSeek的核心技术，数据蒸馏因为能通过压缩数据集或知识迁移，显著降低模型训练成本，成为了资源受限场景（比如移动设备）必备技术。又因为其涉及子领域众多（比如分布匹配），还与生成模型等技术交叉，从而拥有了相当丰富的理论探索空间。可谓产业与学术的双重落地，无疑是机器学习领域的研究焦点。

且单从论文上看，数据蒸馏在CVPR等顶会上接受度日益增高，研究价值有目共睹，想上车的得抓紧了。建议论文er们从技术瓶颈（比如计算成本）切入，尤其在算法优化、跨领域应用和理论深化方向。需要参考的可以看我整理的15篇数据蒸馏新论文，基本都有代码方便复现。

全部论文+开源代码需要的同学看文末

CVPR 2025满分论文 Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

方法：论文提出了一种新的数据蒸馏方法NCFM，通过将数据蒸馏转化为一个 minmax 优化问题，并利用神经特征函数（NCF）来衡量真实数据和合成数据之间的分布差异。该方法通过优化特征函数的采样策略，最大化分布差异，从而生成更接近真实数据的合成数据。

创新点：

提出了一种新的度量方法，称为神经特征函数差异度量（NCFD），用于精确捕捉真实数据和合成数据之间的分布差异。
基于NCFD，作者引入了一种名为神经特征函数匹配（NCFM）的方法，将数据集蒸馏重新定义为一个极小极大优化问题。

Llmlingua-2: Data distillation for efficient and faithful task-agnostic prompt compression

方法：论文提出了一种名为LLMLingua-2的任务无关提示压缩方法，通过数据蒸馏从大型语言模型中提取知识，生成压缩后的提示，同时保留关键信息。该方法将提示压缩建模为标记分类问题，利用 Transformer 编码器捕捉双向上下文信息，压缩速度比现有方法快 3-6 倍，端到端延迟加速 1.6-2.9 倍。