【图像分割论文阅读】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

最新推荐文章于 2023-04-24 22:00:00 发布

LawenceRay

最新推荐文章于 2023-04-24 22:00:00 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：深度学习论文阅读

本文链接：https://blog.csdn.net/LawenceRay/article/details/90899140

版权

深度学习专栏收录该内容

34 篇文章 1 订阅

订阅专栏

Linknet

文章由美国普渡大学Abhishek Chaurasia、Eugenio Culurciello共同完成。发表于2017 IEEE Visual Communications and Image Processing (VCIP)，相较之前论文出处，收录文章的会议声名不显。
论文地址:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

背景

作者开篇直言视觉场景理解中的像素级语义分割既需要准确率高更需要高效以应用于实时应用中。但是现存的算法尽管准确率高但是没有高效的利用模型参数。本通过利用Encoder表征高效的进行语义分割并产生较高的精度。作者阐述在计算机视觉领域，图像分类任务发展迅速，但是大多数模型纵然取得非常好的结果，但是往往需要大量的处理时间。在目标检测领域尽管YOLO、Fast R-CNN、SSD等模型是针对实时目标检测任务，但是在语义分割任务中，还没有人这样做。
作者认为，用于场景分析的神经网络结构可以细分为编解码器网络，两个网络分别是区分网络和生成网络。在区分网络中通常使用流行的分类模型，生成网络中使用池化过程的索引或反卷积进行上采样恢复图像分辨率。编解码器可以是对称的也可以是不对称的。

模型结构

采用的基础模型为ResNet18.
LinkNet

文中模型结构近乎类似U-Net，是一个典型的Encoder-Decoder结构。左侧是Encoder模块，右侧是Decoder模块。
其中Encoder block构造如下： encoder

Decoder block构造如下：
decoder

实验

实验所用数据集是Cityscapes，在分析实验结果时，近乎是对标E-Net，如下图分别对比了在NAVIDIA TX1和NAVIDIA Titian X两种设备下处理不同三种输入像素大小所耗费时间，以及对应的FPS值。 table2

另外对比了与E-Net、SegNet处理分辨率大小为640x360的图像需要的浮点数运算次数、模型参数以及模型大小： table3
最后对比在Cityscapes上的分割精度，采用的评判指标为Class IoU、Class iIoU，如下图：
table iv
这里模型的Class IoU=76.4%,Class IioU=58.6%，可以看到的是对比E-Net尽管没有E-Net快但是这精度也搞太多了吧！！！
同样是在Cityscapes数据集上Class IoU提升将近20%，iIoU提升大约24%，这是很恐怖的呀！提升的原因在哪？？？

最后LinkNet在特定类别上取得的效果如下，但是这张图存在很大问题，结果不直观，并且文中没有对任何结果进行详细的描述，甚至没有描述。Table V中本应对比五个模型结果，但是在表中却给读者造成极大的阅读障碍。很难受！！！
表五是在CamVid上的测试结果。

Table V

思考

看到实验结果的时候在想，ICNet中有一张神图对比分析了许多模型在Cityscapes测试集上的性能。当时说的是其他模型FPS>10，mIoU=60%，而ICNet表现为fps=30,mIoU=70.6%，虽然ICNet是2018年的论文，但是那张图上没有LinkNet.

精度提升的原因在哪？

文中没有很大的创新，但是巨大的性能提升是为什么？
解释为什么对比E-Nett提升如此大呢？我认为某种原因是E-Net中采用Skip connection中并不是恒等映射，而是利用最大池化层进行下采样。快是快了，但是牺牲了比较多的精度。相较于其他模型精度如DIlation-8提升相对不是那么大，原因要探求的话继续分析细节。至于为什么快，很大程度上是因为基础模型是ResNet18，自然的参数就少。