ICLR&NeurIPS | 数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

最新推荐文章于 2024-07-14 19:43:20 发布

机器学习社区

最新推荐文章于 2024-07-14 19:43:20 发布

阅读量530

点赞数

分类专栏： CV 文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59596990/article/details/121996051

版权

CV 专栏收录该内容

110 篇文章 3 订阅

订阅专栏

在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。

这就是知识蒸馏，一种模型压缩/训练方法。

不过随着技术发展，大家也逐渐将蒸馏的对象扩展到了数据集上。

这不，谷歌最近就提出了两种新的数据集蒸馏方法，在推特上引起了不小反响，热度超过600，喜欢本文点赞、收藏、关注。

在这里插入图片描述

像这样，将50000张标注图像的CIFAR-10数据集“蒸馏”缩小至1/5000大小，只基于10张合成数据点进行训练，模型的准确率仍可近似51%：

在这里插入图片描述

△上：原始数据集下：蒸馏后

而如果“蒸馏数据集”由500张图像组成（占原数据集1%大小），其准确率可以达到80%。

通过两阶段循环进行优化

那么要如何才能“蒸馏”一个数据集呢？

其实，这相当于一个两阶段的优化过程：

“内部循环”，用于在学习数据上训练模型
“外部循环”，用于优化学习数据在自然数据上的性能

通过内部循环可以得到一个核脊回归（KRR）函数，然后再外部循环中计算原始图像标注与核脊回归函数预测标注之间的均方误差（MSE）。

这时，谷歌提出的两种方法就分别有了不同的处理路线：

一、标注解释 （LS）

这种方法直接解释最小化KRR损失函数的支持标注集（support labels），并为每个支持图像生成一个独特的密集标注向量。

在这里插入图片描述

△蓝：原始独热标注橙：LS生成的密集标注

二、核归纳点 （KIP）

这种方法通过基于梯度的方法将KRR损失函数最小化，以此来优化图像和可能生成的数据。

以MNIST为例，下图中的上、中、下三张图分别为原始的MNIST数据集、固定标注的KIP蒸馏图像、优化标注的KIP蒸馏图像。

可以看出，在于对数据集进行蒸馏时，优化标注的效果最好：

在这里插入图片描述

对比已有的DC（Dataset Condensation）方法和DSP（Dataset Condensation with Differentiable Siamese Augmentation）方法可以看到：

如果使用每类别只有一张图像，也就是最后只有10张图像的蒸馏数据集，KIP方法的测试集准确率整体高于DC和DSP方法。

在CIFAR-10分类任务中，LS也优于先前的方法，KIP甚至可以达到翻倍的效果。
在这里插入图片描述

对此，谷歌表示：

这证明了在某些情况下，我们的缩小100倍的“蒸馏数据集”要比原始数据集更好。

两位华人作者

整个项目由萧乐超（Lechao Xiao）、Zhourong Chen、Roman Novak三人合作完成。

其中萧乐超为LS方法的论文作者之一，本科毕业于浙江大学的应用数学系，在美国伊利诺大学厄巴纳-香槟分校（UIUC）取得博士学位，现在是谷歌大脑团队的一名科学家。

他的主要研究方向是数学、机器学习和深度学习。
在这里插入图片描述

另一位华人科学家Zhourong Chen则是KIP方法的论文作者之一，本科毕业于中山大学，并在香港科技大学取得了计算机科学与工程系的博士学位，现是Google Research的一名软件工程师。

论文：
[1]https://openreview.net/forum?id=l-PrrQrK0QR
[2]https://openreview.net/forum?id=hXWPpJedrVP

开源地址：
https://github.com/google-research/google-research/tree/master/kip

参考链接：
https://ai.googleblog.com/2021/12/training-machine-learning-models-more.html

机器学习社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ICLR&NeurIPS | 数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就是知识蒸馏，一种模型压缩/训练方法。不过随着技术发展，大家也逐渐将蒸馏的对象扩展到了数据集上。这不，谷歌最近就提出了两种新的数据集蒸馏方法，在推特上引起了不小反响，热度超过600：像这样，将50000张标注图像的CIFAR-10数据集“蒸馏”缩小至1/5000大小，只基于10张合成数据点进行训练，模型的准确率仍可近似51%：△
复制链接

扫一扫

专栏目录

机器学习社区 CSDN认证博客专家 CSDN认证企业博客

码龄3年

500: 原创

310: 周排名

2170: 总排名

83万+: 访问

: 等级

9788: 积分

2万+: 粉丝

4364: 获赞

107: 评论

8125: 收藏

私信

关注

热门文章

分类专栏

最新评论

ChatGLM-6B模型结构组件源码阅读
qq_16940641: 大佬，请教一下，attention那里的计算，qk的缩放系数一开是缩小了layer_id倍，最后76行又放大了layer_id倍，这一来一回没什么变化啊，那为什么还需要这么操作呢？
百度机器学习算法春招一二三面面经
Byyyi耀: 大佬互关吗？非常不错的文章，解决了我大问题！赞一个！
大模型LLM Agent在 Text2SQL 应用上的实践
qq_38402407: 请问一下，这种该如何训练呢，以及如何构造训练数据，请问有相关资料吗，谢谢
【RAG实践】基于LlamaIndex和Qwen1.5搭建基于本地知识库的问答机器人
qq_20105917: 在这之前的日志有警告。如下： 2024-06-05 15:35:05,203 - modelscope - WARNING - No preprocessor field found in cfg. 2024-06-05 15:35:05,203 - modelscope - WARNING - No val key and type key found in preprocessor domain of configuration.json file. 2024-06-05 15:35:05,203 - modelscope - WARNING - Cannot find available config to build preprocessor at mode inference, current config: {'model_dir': 'models/iic/nlp_gte_sentence-embedding_chinese-base'}. trying to build by task and model information. 2024-06-05 15:35:05,225 - modelscope - WARNING - No preprocessor field found in cfg. 2024-06-05 15:35:05,225 - modelscope - WARNING - No val key and type key found in preprocessor domain of configuration.json file. 2024-06-05 15:35:05,225 - modelscope - WARNING - Cannot find available config to build preprocessor at mode inference, current config: {'model_dir': 'models/iic/nlp_gte_sentence-embedding_chinese-base', 'sequence_length': 128}. trying to build by task and model information.
【RAG实践】基于LlamaIndex和Qwen1.5搭建基于本地知识库的问答机器人
qq_20105917: response没有输出。模型Qwen-7b-Chat.最后的日志 /opt/python3.10/python3/lib/python3.10/site-packages/transformers/generation/configuration_utils.py:492: UserWarning: `do_sample` is set to `False`. However, `temperature` is set to `0.0` -- this flag is only used in sample-based generation modes. You should set `do_sample=True` or unset `temperature`. warnings.warn( /opt/python3.10/python3/lib/python3.10/site-packages/transformers/generation/configuration_utils.py:497: UserWarning: `do_sample` is set to `False`. However, `top_p` is set to `0.8` -- this flag is only used in sample-based generation modes. You should set `do_sample=True` or unset `top_p`. warnings.warn( /opt/python3.10/python3/lib/python3.10/site-packages/transformers/generation/configuration_utils.py:509: UserWarning: `do_sample` is set to `False`. However, `top_k` is set to `0` -- this flag is only used in sample-based generation modes. You should set `do_sample=True` or unset `top_k`. warnings.warn(

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。