论文地址。
相比 SegNet、FCN 等以 VGG 作为特征识别部分的网络,作者提出了一个更加轻量级、运算量和参数量都较小的网络,来提高语义分割在实际使用中的推断时间和减轻对设备的要求。网络的名字叫做 ENet,即 efficient neural network。
网络结构
在了解网络结构之前,通常都是看看网络的组成单元 block。ENet 中主要有两种单元组成,即 initial block 和 bottleneck block,具体的结构分别于下面说明。
initial block
上边的是 initial block,根据论文中的设置,只使用到一次,也就是对输入的图像进行处理时用到的。输入图像的尺寸是512*512*3,两条路径中左侧是 3*3 的卷积,步长为 2,计算的结果是256*256,可见使用了 padding。不过对于步长为 1 的卷积填充很好理解,就是各在边界左右添加相应数量的 0 即可;但是步长不为 1 时呢?应该也是填充,但这个填充是在一侧边界上而已呢还是在左右两侧都会做填充?根据之前看过 tensorflow 官方文档中对于池化层 padding 填充的解释,是单侧填充而已,但似乎对于卷积这种运算特点