LinkNet:Exploiting Encoder Representations for Efficient Semantic Segmentation(CVPR2017)

源文网址:https://arxiv.org/abs/1707.03718

Abstract

像素化的视觉场景语义分割不仅要准确,而且要高效,才能在实时应用中得到应用。现有算法虽然它们都是精确的,但并没有把重点放在有效地利用神经网络的参数上。因此,它们在参数和操作数量方面都很庞大,因此速度也很慢。在这里本文提出了一种新的深度神经网络结构,使其能够在不增加参数的情况下进行学习。

paper 贡献

不影响处理时间的条件下得到较高分割准确率。
一般,编码层由于卷积池化丢失的位置信息通过池化层最大值的索引或者全卷积操作进行恢复。
该文主要贡献是并未使用上述方法进行恢复,绕过空间信息,直接将编码器与解码器连接来提高准确率,一定程度上减少了处理时间。(与UNet有类似)通过这种方式,保留编码部分中不同层丢失的信息,同时,在进行重新学习丢失的信息时并未增加额外的参数与操作。

网络结构

在这里插入图片描述
在这里插入图片描述
conv means convolution and full-conv means full convolution
/2 denotes downsampling by a factor of 2 which is achieved by performing strided convolution
∗2 means upsampling by a factor of 2
The encoder starts with an initial block which performs convolution on input image with a kernel of size 7×7 and a stride of 2. This block also performs spatial max-pooling in an area of 3 × 3 with a stride of 2.
/2表示下采样2x, *2表示上采样2x,每一个conv之后都会跟有BN和relu。
在encoder中,每一个encoder block都是residual block,Table1中是对应的每个block中的m,n参数值。其中,如conv[(7x7), (3, 64), /2]的3是输入channel, 64是输出channels。
在这里插入图片描述
在这里插入图片描述
与ENet相比速度快,可能是ResNet18原因?文中提到的自己的创新在于bypass connection,个人感觉不算是创新,,,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值