Moonshine:Distilling with Cheap Convolutions
本文将两种成熟的方法结合在一起然后水了一片论文。先用群卷积构造一个小的网络,然后用知识蒸馏的方法训练网络。这里不介绍知识蒸馏。
(1) 群卷积将上一层的输入M分为N个组分别进行卷积再最后拟合在一起。这样,参数会减少。
(2)我感觉group conv本身应该就大大减少了参数,比如当input channel为256,outp...
原创
2018-09-26 17:00:27 ·
879 阅读 ·
0 评论