SEP-Nets: Small and Effective Pattern Networks. Zhe Li Xiaoyu Wang Xutao Lv Tianbao Yang
深度CNN在各类任务上被证明会随着深度加深模型增大而效果变好,但是预测速度是比较慢的,而且在嵌入式上速度更慢且对模型体积有严格限制。resnet34的模型在服务器cpu上大概要200ms左右,手机上要400ms~1s左右,因此模型裁剪和压缩是一个较新的技术方向用来提升预测速度。原理上有两类:一是通过裁剪模型的冗余参数来保证精度不怎么降低的情况下计算量减小,比如蒸馏、mobilenet、squeeze等等;另一类是通过量化模型参数,使得参数之间的预算由浮点变成定点甚至是0/1运算,比如binary/ternary、定点化等方法。这个paper是cvpr2017上的一篇,作者xiaoyu说前人的paper其实是比较难复现的,而且全量定点化或者binarize精度会下降的比较多,是一个比较新的工作。
Motivation:
之前的量化工作都是所有参数全部量化,这会导致精度降低很多,因此作者选取了个折衷的办法只量化部分参数来达到提升速度减小体积的同时精度不会降低很多;另外为了便于大家实现设计,提出了一个新的量化module:pattern residual block,可以方便的加入网络结构中。
基本原理:
做binarize的基本过程如下: