本文将两种成熟的方法结合在一起然后水了一片论文。先用群卷积构造一个小的网络,然后用知识蒸馏的方法训练网络。这里不介绍知识蒸馏。
(1) 群卷积将上一层的输入M分为N个组分别进行卷积再最后拟合在一起。这样,参数会减少。
(2)我感觉group conv本身应该就大大减少了参数,比如当input channel为256,output channel也为256,kernel size为3*3,不做group conv参数为256*3*3*256,若group为8,每个group的input channel和output channel均为32,参数为8*32*3*3*32,是原来的八分之一。这是我的理解。压缩效果如下: