SegNet
用于做图像语义分割。比以往神经网络要训练参数更少、速度更快、memory需求更低。
Architecture
总体上是encoder-decoder的结构。
encoder采用了与VGG16网络相同的13层卷积层,decoder由上采样和卷积层构成。
每一个encoder和一个decoder对应。
最后用一个可训练的soft-max层做分类。将3 channels的像素分类为K classes
Encoder
每一个encoder由若干个卷积层跟上一个Max-pooling以及sub-sampling构成。
这里的卷积层有batch-normalized以及relu
具体来说,是一个可训练卷积层,2x2大小,2滑动距离的max-pooling,以及因子为2的sub-sampling。
Decoder
Decoder是本网络最重要的工作。它由Upsampling和卷积层构成。
Upsampling中的indices和Encoder中的indices相同,这可以保留segmented images中的高频信息,并大大减少训练参数。
卷积层也是带有batch-normalized以及relu。
特点
- 提高了边界的描述(delination)
- 减少了训练参数 提高了速度,降低了内存
- upsampling形式可被用于其他网络
效果
以CamVid road scene segmentation 和 RGB-D indoor scene segmentation 来衡量