【E-Net & LinkNet】For Efficient

本文介绍了为实现高效实时语义分割的E-Net和LinkNet。E-Net通过精简网络结构,实现快速且精度高的语义分割,其特色包括早期下采样、信息保留的维度变化和空洞卷积。LinkNet则基于ResNet18,通过残差块和轻量级设计,在保持低参数量的同时,实现了良好的分割效果。两者都在CamVid和Cityscapes数据集上表现出色,但E-Net在速度上更具优势。
摘要由CSDN通过智能技术生成

在这里插入图片描述

ENet: A Deep Neural Network Architecture for Real-Time Semantic segmentation.
LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation.
其中E-Net是2016年论文,LinkNet是2017年的论文(VCIP,Visual Communication and Image Processing Conference)。都是为速度而生的网络。


E-Net

概述


  • 解决的问题
    • ENet–>Efficient neural network
  • 采用的方法
    • 精简网络结构,减少训练的参数
  • 结果如何
    • 数据集:CamVid, Cityscapes, SUN
    • 18x faster, 75x less Flops, 79x less parameters【这个在abstract上啊,跟什么模型比,到后面结果看吧】, 在速度和精度上有比较好的平衡。且精度可以与当时的state-of-the-art媲美。
  • Contributions
    • 平衡速度和精度,速度是真的挺快的。

细节


结构

这里是两个其中的结构:

  • figure2 (a)是结构表中的输入部分,即initial部分。表中的结构是以输入为512x512为前提。这部分会有一个2x下采样。两个branch,最后concat,concat后还会接上bn和PReLU才会进入到bottlenect1.0。
  • figure2 (b)是表中的bottleneck结构,但表中根据bottleneck type的不同,这个结构会有一定的变化。
    • downsampling 1: 左右两个支路都是存在的,但是在都是downsampling类型的1.0,2.0中,第一个1x1处的卷积会改成2x2,s=2,用来下采样两倍。另一支路上的Maxpooling也是下采样两次,此处会有一个连接传递index到对应的upsampling上的unpooling支路上,用来对应上采样。
    • downsampling 2:bottleneck 1.x的支路第一个conv仍然是1x1。
    • dilate x:表示在figure2(b)中的conv使用的空洞卷积,rate=x。且,maxpool这条支路上只是单纯的一个残差连接,没有任何操作的一条支路
    • asymmetric x:这里使用的是非对称conv,也就是将XX的conv拆分成X1和1*X的级联结构,此处X=5。
    • upsampling:conv更改为deconv,maxpooling处也更改为对应的unpooling。
    • fullconv:deconv上采样2x。

整体结构以及细节就是上面的各个部分组成。

Design


  • feature map resolution:遵循SegNet的做法来上采样,可以减少内存需要,大量的下采样会让分割的精度损失【适当下采样可以增加感受野,获取上下文信息,从而得到更多的语义信息】,采用空洞卷积也是这种目的,保证分辨率,get大感受野。
  • Early downsampling【下采样都都放在网络结构的靠前部分】:ENet的开头两个blocks就极大的减少了input size,这样做的道理是:视觉信息在空间上被极大的减少,图片可以被压缩成一个高效的表达。在早期就很快的将input size降下来,不会影响分类,仅仅将前面的几层作为预处理部分。
  • Information-preserving dimensionality changes:一般会使用conv后接pool层,会增加feature map的深度(channels),这样会需要很大的计算量,因此,在文中尝试使用pool与conv并行的方式。【This technique allowed us to speed up inference time of the initial block 10 tiime】
  • Factorizing filter:n1和1n级联来代替n*n,可以节省很多参数。上面的pool和conv并联的方式和这个Factorizing filter方式都是ENet借鉴InceptionV3里的方式
  • Dilated convolutions
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值