知识蒸馏和紧致网络

重要链接:

深度学习模型压缩与优化加速

深度神经网络的压缩与加速的主要方法有:参数剪枝、参数共享、低秩分解、紧性卷积核设计、知识蒸馏

知识蒸馏:迁移学习的一种,目的是将庞大网络学到的知识转移到小的网络模型上,即不改变网络复杂度的情况下,通过增加监督信息的丰富程度来提升性能。

关键点:1.知识获取  2.知识转移

常见集中思想:

1.    softmax层的输入比类别标签包含更多的监督信息,使用logistics代替类别标签对小模型进行训练,将小模型训练转化为了回归问题。让小模型输出尽量接近大模型的logits。因为小模型隐层要足够宽,所以参数没有明显减少,效果有限。

2.    softmax的输出层包含了每个类别的概率,包含了更多的信息,用超参数控制预测概率的平衡程度。最终损失函数由小模型预测结果和大模型logistics的交叉熵,和小模型预测结果和类别标签的交叉熵组成。通过调节权重确定两部分的重要程度。但当类别较多时模型难收敛,因为与维度紧密。与logits相比,前一层的输出包含了更多噪声和无关信息。因此先取出无关维度(保留足够强区分维度,维度间低相关)。效果会提高。但研究工作还需要深入。


紧凑的网络结构

1.    挤压

维度不高表达不强,维度高了参数增多,容量与参数的平衡用1*1的卷积进行降维,得到多通道信息,特征紧密,保证模型泛化(例如深度分离卷积,mobilenet)

2.    扩张

为了减少参数,部分使用1*1代替大的卷积核,但为了保证不同核输出拼接完整,要对打的卷积输入进行合适的填充像素

3.    Squeezenet:

三条卷积操作,扩张卷积,反卷积,普通卷积,然后合并输入下一层。实现了4.1M参数和googlenet效果一样。
转于:

https://blog.csdn.net/lijjianqing/article/details/79625041

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值