Do Deep Nets Really Need to be Deep?

本文探讨了一种使用大模型(如DNN和CNN)指导小模型(SNN)学习的方法,称为模仿学习(MIMIC)。通过大模型的softmax输出作为软标签来监督小模型的训练,提高了小模型的性能,甚至SNN-MIMIC-400k在某些情况下超过了大模型。此外,作者还通过分解FC层来减少参数数量,降低了模型复杂度,同时保持了良好性能。
摘要由CSDN通过智能技术生成

在这里插入图片描述
大模型带小模型去学,小模型也能学出小模型一样复杂的函数,一样好的性能,但参数少得多

  • 大模型DNN:输入,FC2000,FC2000,FC2000, FC183
  • CNN模型:输入,Conv,maxpool,FC2000, FC2000, FC2000, FC183
  • 小模型(shallow)SNN:输入,FC8000,FC183

输入:1845d

方法:大模型预测的softmax输出直接送给小模型当GT学

模型效果:
在这里插入图片描述

  • SNN-8k就是结构:输入,FC8000,FC183
  • SNN-50k就是结构:输入,FC50000,FC183
  • SNN-400k就是结构:输入,FC400000,FC183

都表示直接用这个浅的模型在训练集上学习,效果差点意思,学不了那么好

DNN和CNN就是之前说的那个

  • SNN-MIMIC-8k就是结构:输入,FC8000,FC183
  • SNN-MIMIC-400k就是结构:输入,FC400000,FC183

区别是带了MIMIC的表示模仿学习,即不直接在训练集上训练SNN,而是用DNN或CNN预测的结果来监督SNN,由于预测的结果是(0.1,0.3,0.2,0.4)这种soft的标签,比(0,0,0,1)这种hard标签好学一些,因此效果更好。而且SNN-MIMIC-400k学的结果甚至超过DNN了

最后,为了降低模型复杂度,作者还通过将”FC100,FC100“拆分为"FC(100),FC(10),FC(100)"这种操作来节省参数,参数从O( 100 ∗ 100 100*100 100100)变为O( 100 ∗ 10 + 100 ∗ 10 100*10+100*10 10010+10010)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值