【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

概述

像素级语义分割不仅要精度也要速度,现有算法精度有但速度慢。因此本文提出了LinkNet,在不显著增加参数量的情况下进行学习,最后在CamVid数据集上取得了SOTA,Cityscapes数据集上也是类似结果。

总结

  • 创新点:
    • 1.编码器和解码器直接相连,共享了学习信息,保留了通常丢失掉的空间信息
    • 2.编码器用ResNet18,编解码器参数更少
  • 不足:依旧是编解码器
  • 分析:编解码器直接相连,保留空间信息,共享学习减少学习参数量
  • 结论:CamVid中的SOTA、省成本、速度快精度高

1. Introdution

CNN网络在图像分类、定位、场景理解上很成功,现有许多学者聚焦于场景理解即逐像素级的语义分割。现有语义分割网络大多以编码器解码器为其核心。目标检测算法有YOLO、FastRCNN、SSD等优化速度的算法,但目前针对语义分割的还没有。通常由于池化和步长卷积而丢失的编码信息使用池化索引和全卷积来恢复,本文则绕过空间信息,直接从编码器到对应的解码器,提高精度的同时显著减少了处理时间,使得原本要丢失的信息保留。

2. Related Work

用于场景理解的神经网络架构可细分为编码器网络解码器网络,它们基本上就是判别器生成器。SOTA一般使用分类模型作为它们的判别器,生成器使用来自于判别器储存的池化索引,或使用卷积来学习参数执行上采样。#P2

3. Architecture

在这里插入图片描述
在这里插入图片描述
Every conv(k × k)(im, om) and full-conv(k × k)(im, om) operations has at least three parameters. Here, (k × k) represent (kernel − size) and (im, om) represent (inputmap, outputmap) respectively. 本文网络使用ResNet18作为编码器,不同于其他语义分割网络的亮点是将每个编码器和解码器连接起来,以此可以恢复由于下采样而丢失的空间信息,此外,解码器在每一层共享由编码器学习到的知识,所以解码器使用的参数更少。

4. Results

与其他现有网络比较的两个尺度:1.速度(执行前向传播所用的时间,涉及的操作次数)2.在Cityscapes和CamVid数据集上的精度。
速度
在这里插入图片描述
在这里插入图片描述
精度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. Conclusion

提出了一个专用于语义分割的网络LinkNet。使用嵌入式平台成本大大降低,以更快更高效的方式执行大规模计算,性能也还不错,节省大量成本。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值