Do Deep Nets Really Need to be Deep?

最新推荐文章于 2024-09-10 15:29:42 发布

MindAndHand

最新推荐文章于 2024-09-10 15:29:42 发布

阅读量146

点赞数

文章标签：深度学习模型蒸馏蒸馏学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35226955/article/details/116241602

版权

本文探讨了一种使用大模型（如DNN和CNN）指导小模型（SNN）学习的方法，称为模仿学习（MIMIC）。通过大模型的softmax输出作为软标签来监督小模型的训练，提高了小模型的性能，甚至SNN-MIMIC-400k在某些情况下超过了大模型。此外，作者还通过分解FC层来减少参数数量，降低了模型复杂度，同时保持了良好性能。

摘要由CSDN通过智能技术生成

在这里插入图片描述
大模型带小模型去学，小模型也能学出小模型一样复杂的函数，一样好的性能，但参数少得多

大模型DNN：输入，FC2000，FC2000，FC2000， FC183
CNN模型：输入，Conv，maxpool，FC2000， FC2000， FC2000， FC183
小模型(shallow)SNN：输入，FC8000，FC183

输入：1845d

方法：大模型预测的softmax输出直接送给小模型当GT学

模型效果：
在这里插入图片描述

SNN-8k就是结构：输入，FC8000，FC183
SNN-50k就是结构：输入，FC50000，FC183
SNN-400k就是结构：输入，FC400000，FC183

都表示直接用这个浅的模型在训练集上学习，效果差点意思，学不了那么好

DNN和CNN就是之前说的那个

SNN-MIMIC-8k就是结构：输入，FC8000，FC183
SNN-MIMIC-400k就是结构：输入，FC400000，FC183

区别是带了MIMIC的表示模仿学习，即不直接在训练集上训练SNN，而是用DNN或CNN预测的结果来监督SNN，由于预测的结果是(0.1,0.3,0.2,0.4)这种soft的标签，比(0,0,0,1)这种hard标签好学一些，因此效果更好。而且SNN-MIMIC-400k学的结果甚至超过DNN了

最后，为了降低模型复杂度，作者还通过将”FC100，FC100“拆分为"FC(100),FC(10),FC(100)"这种操作来节省参数，参数从O( $100 * 100$ )变为O( $100 * 10 + 100 * 10$ )

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Do Deep Nets Really Need to be Deep?

大模型带小模型去学，小模型也能学出小模型一样复杂的函数，一样好的性能，但参数少得多大模型DNN：输入，FC2000，FC2000，FC2000， FC183CNN模型：输入，Conv，maxpool，FC2000， FC2000， FC2000， FC183小模型(shallow)SNN：输入，FC8000，FC183输入：1845d方法：大模型预测的softmax输出直接送给小模型当GT学模型效果：SNN-8k就是结构：输入，FC8000，FC183SNN-50k就是结构：输入，.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。