【E-Net & LinkNet】For Efficient

最新推荐文章于 2024-09-20 19:36:40 发布

One__Coder

最新推荐文章于 2024-09-20 19:36:40 发布

阅读量3.6k

点赞数 2

分类专栏：论文阅读

本文链接：https://blog.csdn.net/github_37973614/article/details/86285741

版权

本文介绍了为实现高效实时语义分割的E-Net和LinkNet。E-Net通过精简网络结构，实现快速且精度高的语义分割，其特色包括早期下采样、信息保留的维度变化和空洞卷积。LinkNet则基于ResNet18，通过残差块和轻量级设计，在保持低参数量的同时，实现了良好的分割效果。两者都在CamVid和Cityscapes数据集上表现出色，但E-Net在速度上更具优势。

摘要由CSDN通过智能技术生成

在这里插入图片描述

ENet: A Deep Neural Network Architecture for Real-Time Semantic segmentation.
LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation.
其中E-Net是2016年论文，LinkNet是2017年的论文（VCIP,Visual Communication and Image Processing Conference）。都是为速度而生的网络。

E-Net

概述

解决的问题
- ENet–>Efficient neural network
采用的方法
- 精简网络结构，减少训练的参数
结果如何
- 数据集：CamVid, Cityscapes, SUN
- 18x faster, 75x less Flops, 79x less parameters【这个在abstract上啊，跟什么模型比，到后面结果看吧】, 在速度和精度上有比较好的平衡。且精度可以与当时的state-of-the-art媲美。
Contributions
- 平衡速度和精度，速度是真的挺快的。

细节

结构

这里是两个其中的结构：

figure2 (a)是结构表中的输入部分，即initial部分。表中的结构是以输入为512x512为前提。这部分会有一个2x下采样。两个branch，最后concat，concat后还会接上bn和PReLU才会进入到bottlenect1.0。
figure2 (b)是表中的bottleneck结构，但表中根据bottleneck type的不同，这个结构会有一定的变化。
- downsampling 1：左右两个支路都是存在的，但是在都是downsampling类型的1.0，2.0中，第一个1x1处的卷积会改成2x2，s=2，用来下采样两倍。另一支路上的Maxpooling也是下采样两次，此处会有一个连接传递index到对应的upsampling上的unpooling支路上，用来对应上采样。
- downsampling 2：bottleneck 1.x的支路第一个conv仍然是1x1。
- dilate x：表示在figure2(b)中的conv使用的空洞卷积，rate=x。且，maxpool这条支路上只是单纯的一个残差连接，没有任何操作的一条支路。
- asymmetric x：这里使用的是非对称conv，也就是将XX的conv拆分成X1和1*X的级联结构，此处X=5。
- upsampling：conv更改为deconv,maxpooling处也更改为对应的unpooling。
- fullconv：deconv上采样2x。

整体结构以及细节就是上面的各个部分组成。

Design

feature map resolution：遵循SegNet的做法来上采样，可以减少内存需要，大量的下采样会让分割的精度损失【适当下采样可以增加感受野，获取上下文信息，从而得到更多的语义信息】，采用空洞卷积也是这种目的，保证分辨率，get大感受野。
Early downsampling【下采样都都放在网络结构的靠前部分】：ENet的开头两个blocks就极大的减少了input size，这样做的道理是：视觉信息在空间上被极大的减少，图片可以被压缩成一个高效的表达。在早期就很快的将input size降下来，不会影响分类，仅仅将前面的几层作为预处理部分。
Information-preserving dimensionality changes：一般会使用conv后接pool层，会增加feature map的深度（channels），这样会需要很大的计算量，因此，在文中尝试使用pool与conv并行的方式。【This technique allowed us to speed up inference time of the initial block 10 tiime】
Factorizing filter：n1和1n级联来代替n*n，可以节省很多参数。上面的pool和conv并联的方式和这个Factorizing filter方式都是ENet借鉴InceptionV3里的方式。
Dilated convolutions