知识蒸馏和紧致网络

最新推荐文章于 2024-06-23 19:17:30 发布

一路狂奔的猪

最新推荐文章于 2024-06-23 19:17:30 发布

阅读量736

点赞数

分类专栏：深度学习基础知识文章标签：知识蒸馏和紧致网络

深度学习基础知识专栏收录该内容

17 篇文章 1 订阅

订阅专栏

重要链接：

深度学习模型压缩与优化加速

深度神经网络的压缩与加速的主要方法有：参数剪枝、参数共享、低秩分解、紧性卷积核设计、知识蒸馏

知识蒸馏：迁移学习的一种，目的是将庞大网络学到的知识转移到小的网络模型上，即不改变网络复杂度的情况下，通过增加监督信息的丰富程度来提升性能。

关键点：1.知识获取 2.知识转移

常见集中思想：

1. softmax层的输入比类别标签包含更多的监督信息，使用logistics代替类别标签对小模型进行训练，将小模型训练转化为了回归问题。让小模型输出尽量接近大模型的logits。因为小模型隐层要足够宽，所以参数没有明显减少，效果有限。

2. softmax的输出层包含了每个类别的概率，包含了更多的信息，用超参数控制预测概率的平衡程度。最终损失函数由小模型预测结果和大模型logistics的交叉熵，和小模型预测结果和类别标签的交叉熵组成。通过调节权重确定两部分的重要程度。但当类别较多时模型难收敛，因为与维度紧密。与logits相比，前一层的输出包含了更多噪声和无关信息。因此先取出无关维度（保留足够强区分维度，维度间低相关）。效果会提高。但研究工作还需要深入。

紧凑的网络结构

1. 挤压

维度不高表达不强，维度高了参数增多，容量与参数的平衡用1*1的卷积进行降维，得到多通道信息，特征紧密，保证模型泛化（例如深度分离卷积，mobilenet）

2. 扩张

为了减少参数，部分使用1*1代替大的卷积核，但为了保证不同核输出拼接完整，要对打的卷积输入进行合适的填充像素

3. Squeezenet:

三条卷积操作，扩张卷积，反卷积，普通卷积，然后合并输入下一层。实现了4.1M参数和googlenet效果一样。
转于：

https://blog.csdn.net/lijjianqing/article/details/79625041

一路狂奔的猪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
知识蒸馏和紧致网络

重要链接：深度学习模型压缩与优化加速深度神经网络的压缩与加速的主要方法有：参数剪枝、参数共享、低秩分解、紧性卷积核设计、知识蒸馏知识蒸馏：迁移学习的一种，目的是将庞大网络学到的知识转移到小的网络模型上，即不改变网络复杂度的情况下，通过增加监督信息的丰富程度来提升性能。关键点：1.知识获取 2.知识转移常见集中思想：1. softmax层的输入比类别标签包含更多的监督...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。