LinkNet：Exploiting Encoder Representations for Efﬁcient Semantic Segmentation(CVPR2017)_linknet: exploiting encoder representations for ef-CSDN博客

本文链接：https://blog.csdn.net/m0_37910705/article/details/99731950

Abstract

像素化的视觉场景语义分割不仅要准确，而且要高效，才能在实时应用中得到应用。现有算法虽然它们都是精确的，但并没有把重点放在有效地利用神经网络的参数上。因此，它们在参数和操作数量方面都很庞大，因此速度也很慢。在这里本文提出了一种新的深度神经网络结构，使其能够在不增加参数的情况下进行学习。

paper 贡献

不影响处理时间的条件下得到较高分割准确率。
一般，编码层由于卷积池化丢失的位置信息通过池化层最大值的索引或者全卷积操作进行恢复。
该文主要贡献是并未使用上述方法进行恢复，绕过空间信息，直接将编码器与解码器连接来提高准确率，一定程度上减少了处理时间。（与UNet有类似）通过这种方式，保留编码部分中不同层丢失的信息，同时，在进行重新学习丢失的信息时并未增加额外的参数与操作。

网络结构

在这里插入图片描述

conv means convolution and full-conv means full convolution
/2 denotes downsampling by a factor of 2 which is achieved by performing strided convolution
∗2 means upsampling by a factor of 2
The encoder starts with an initial block which performs convolution on input image with a kernel of size 7×7 and a stride of 2. This block also performs spatial max-pooling in an area of 3 × 3 with a stride of 2.
/2表示下采样2x， *2表示上采样2x，每一个conv之后都会跟有BN和relu。
在encoder中，每一个encoder block都是residual block，Table1中是对应的每个block中的m，n参数值。其中，如conv[(7x7), (3, 64), /2]的3是输入channel， 64是输出channels。
在这里插入图片描述

与ENet相比速度快，可能是ResNet18原因？文中提到的自己的创新在于bypass connection，个人感觉不算是创新，，，