这里介绍2017ICLR OpenReview中的一篇有关网络压缩的文章《Training Compressed Fully-Connected Networks with a Density-Diversity Penalty》。
看文章标题就知道主要是针对全连接层的,由此我的好感就下降了一半。
———————— 引言 ————————
作者拿VGG说全连接层会占很多资源,压缩这个最重要。好像哪里不对T_T(能压卷积层的才是厉害)。
文章提出了两个名词,我觉得很有意思: “Density” 和 “Diversity”。 这两个名词基本引出了现有的绝大部分深度模型的压缩方法。
“Density” 引出的方法比较有代表性的就是剪枝、矩阵分解等,即降低网络的稀疏度(冗余度),这样模型就被压缩了。
“Diversity”引出的方法比较有代表性的就是量化方法,用少量码字表示一个大的权重矩阵,即降低网络参数的多样性,这样就可以只存储这些不一样的码字,从而压缩模型。
于是,文章将全连接层的密度和多样性也加入loss中进行惩罚,意图使得网络变得更稀疏多样性更差。
而这也是我对这篇文章比较喜欢的一点解释: 作者将全连接层的密度和多样性加入loss中进行惩罚并不是为了直接得到一个小的模型,而是为了在此基础上更好使用剪枝和量化的方法(