写在前面
如题,这篇文章将尝试从卷积拆分的角度看一看各种经典CNN backbone网络module是如何演进的,为了视角的统一,仅分析单条路径上的卷积形式。
形式化
方便起见,对常规卷积操作,做如下定义,
- I I I:输入尺寸,长 H H H 宽 W W W ,令长宽相同,即 I = H = W I = H = W I=H=W
- M M M:输入channel数,可以看成是tensor的高
- K K K:卷积核尺寸 K × K K \times K K×K,channel数与输入channel数相同,为 M M M
- N N N:卷积核个数
- F F F:卷积得到的feature map尺寸 F × F F \times F F×F,channel数与卷积核个数相同,为 N N N
所以,输入为 M × I × I M \times I \times I M×I×I的tensor,卷积核为 N × M × K × K N \times M \times K \times K N×M×K×K的tensor,feature map为 N × F × F N \times F \times F N×F×F的tensor,所以常规卷积的计算量为
F L O P S = K × K × M × N × F × F FLOPS = K \times K \times M \times N \times F \times F FLOPS=K×K×M×N×F×F
特别地,如果仅考虑SAME padding且 s t r i d e = 1 stride = 1 stride=1的情况,则 F = I F = I F=I,则计算量等价为
F L O P S = K × K × M × N × I × I FLOPS = K \times K \times M \times N \times I \times I FLOPS=K×K×M×N×I×I
可以看成是 ( K × K × M ) × ( N × I × I ) (K \times K \times M