ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
提出问题:深度神经网络在移动应用上进行实时像素级语义分割存在困难,需要大量的浮点运算,而且有很长的运行时间,这阻碍了其可用性。虽然CNN在图像分类等应用取得了巨大的成功,但CNN应用于图像像素级标注时只能提供粗糙的空间结果。然而,现有提出的用于分割的神经网络,如SegNet、FCN都使用的VGG16,但这些网络需要大量的参数和很长的推断时间,这对许多移动设备或者电池设备来说是不能实现的。
一、网络架构
1、瓶颈模块ENet bottleneck module
采用了ResNets的观点,该模块具有单个主分支和与之分离的卷积滤波器的扩展,然后进行逐个元素加法合并,如图2b所示。
bottleneck模块主要有非下采样和下采样两种情况:
1)非下采样bottleneck:
每一个block辅线包括3个卷积层:一个1x1投影用来减少维度;一个主要卷积层(即conv,可能是普通卷积,不对称分解卷积或者膨胀空洞卷积);一个1x1扩展层用于升维。在全部卷积之间置有批处理标准化Batch Norm和PReLU。
主分支直接