模型压缩——将模型复杂度加入loss function

最新推荐文章于 2025-02-27 16:37:33 发布

shuzfan

最新推荐文章于 2025-02-27 16:37:33 发布

阅读量3.6k

点赞数 2

分类专栏：神经网络压缩与加速

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuzfan/article/details/53170875

版权

本文探讨了一篇2017年的ICLR论文，该论文提出将全连接层的“密度”和“多样性”纳入损失函数，以促进网络的剪枝和量化压缩。通过这种方式，作者旨在训练出稀疏且低多样性的网络，进一步进行有效压缩。这种方法避免了直接训练小型模型带来的困难，并提供了一种分步迭代的训练策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里介绍2017ICLR OpenReview中的一篇有关网络压缩的文章《Training Compressed Fully-Connected Networks with a Density-Diversity Penalty》。

看文章标题就知道主要是针对全连接层的，由此我的好感就下降了一半。

———————— 引言 ————————

作者拿VGG说全连接层会占很多资源，压缩这个最重要。好像哪里不对T_T（能压卷积层的才是厉害）。

文章提出了两个名词，我觉得很有意思： “Density” 和 “Diversity”。这两个名词基本引出了现有的绝大部分深度模型的压缩方法。

“Density” 引出的方法比较有代表性的就是剪枝、矩阵分解等，即降低网络的稀疏度(冗余度)，这样模型就被压缩了。

“Diversity”引出的方法比较有代表性的就是量化方法，用少量码字表示一个大的权重矩阵，即降低网络参数的多样性，这样就可以只存储这些不一样的码字，从而压缩模型。

于是，文章将全连接层的密度和多样性也加入loss中进行惩罚，意图使得网络变得更稀疏多样性更差。

而这也是我对这篇文章比较喜欢的一点解释：作者将全连接层的密度和多样性加入loss中进行惩罚并不是为了直接得到一个小的模型，而是为了在此基础上更好使用剪枝和量化的方法(

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。