ENet语义分割网络是一个比较常用的分割网络,它拥有简单的网络结构,快速的运行时间和不多的变量,能够被应用于实时图像分割和移动端设备.相较于其他常规的语义分割网络,例如FCN,SegNet等运行时间与内存分别缩小了数十倍.
1.ENet与常规语义分割网络
语义分割网络应用于图像的像素级分类,即对每一个像素点确定他所属的类别,这就注定了语义分割任务相比于分类识别和目标检测任务要用更长的运行时间和更高的内存空间.
在FCN语义分割网络中,提出了语义分割任务的整体框架,即深度卷积提取语义特征,上采样还原细节信息,并且使用全卷积代替全连接层,可以输入不同尺寸的图片,并且当图像较大时明显的减少计算量.在SegNet网络中提出了一种解码编码结构,逐层还原特征图,并融合低层次特征图信息.另外提出了一种基于索引的上池化,即记录编码模块池化层取得池化结果对应的坐标,在解码结构中将用该索引上池化特征图,还原解析度.U-Net网络与FCN非常相似,不同点在于U-Net采用多层上采样.Deeplab系列是这些网络的升级版,采用空洞卷积解决其他语义分割网络中的池化导致特征图解析度缩小边缘信息丢失的缺点.
本文中的ENet网络重点在于缩短网络训练与测试推理时间,减少网络的参数量,减少内存占用.
2.ENet网络模型
在ENet之前,FCN和SegNet等都是采用的VGG16作为基本的特征提取网络,本文中ENet使用类似于ResNet的网