(ICIP2019)图像语义分割(23) LEDNet-用于实时语义分割的轻量级编解码网络

最新推荐文章于 2024-03-21 16:51:12 发布

不会算命的赵半仙

最新推荐文章于 2024-03-21 16:51:12 发布

阅读量2.5k

点赞数

分类专栏：深度学习计算机视觉语义分割文章标签：深度学习计算机视觉实时语义分割

本文链接：https://blog.csdn.net/kevin_zhao_zl/article/details/100657715

版权

深度学习同时被 3 个专栏收录

50 篇文章 9 订阅

订阅专栏

计算机视觉

47 篇文章 3 订阅

订阅专栏

语义分割

34 篇文章 13 订阅

订阅专栏

论文地址： LEDNET: A LIGHTWEIGHT ENCODER-DECODER NETWORK FOR REAL-TIME SEMANTIC SEGMENTATION

在这里插入图片描述

1.方法思路

论文指出计算机视觉中诸如语义分割等密集预测任务使用CNN，对于计算资源的要求过大，限制了其在移动设备上的应用，为此提出LEDNet，一个包含不对称编解码结构的轻量级的网络用于实时语义分割。其中编码结构采用ResNet作为主干网络，修改残差结构加入通道分类和混洗操作；解码结构中设计了注意力金字塔网络APN来进一步减少网络的计算复杂度吗，最后LEDNet以小于1M的参数量，在1080Ti的显卡上FPS达到71，CityScapes测试集mIoU为70.6%，速度精度权衡方面取得了SOTA效果。

具体地，论文提出的分割网络包含两部分，结构如下图所示，该方法同时关注精度和速度，采用不对成的编解码结构。根据卷积操作分解的原则，编码结构的核心，新型残差块包括跳跃结构和通道分离和混洗，前者使残差结构更容易训练，后者增强了特征通道信息交换能力同时保持较小的计算代价。解码结构中为了提取密集特征，LEDNet采用注意力金字塔网络而不是扩张卷积，其中注意力机制用于预测每一个像素点的标签。
在这里插入图片描述

综合来看，论文的贡献在于：

非对称编解码结构降低网络的参数量，加速推理过程
可以允许端到端训练通道分离和混洗，较好的权衡了网络的规模和特征提取能力
注意力机制能够进一步降低网络的复杂度

2. 网络轻量化简述

网络轻量化方法主要分为两类，一种是网络压缩另一种是卷积操作分解。前者旨在通过压缩预训练网络减少推断时所需的计算资源，常见的方法包括哈希化，网络剪枝以及量化，为了进一步消除冗余，根据卷积分解原则CFP，通常还可以将卷积操作分解为组卷积和深度可分离卷积。后者则侧重在以更少的资源训练网络，比如ENet采用ResNet实现高效推断，ICNet提出级联网络进行浅层的标签推导，此外SegNet，ErfNet，EspNet使用对称编解码结构保持精度的同时降低参数量。

3. LEDNet细节

3.1 带有通道分离和混洗操作的残差模块

轻量级网络模块有以下几种，下图a瓶颈块，b非瓶颈块，c为ShuffleNet模块，虽然点分离卷积应用广泛但是会增加计算复杂度，不利于轻量级模型。
在这里插入图片描述

为了在给定计算资源条件下实现精度和速度的权衡，论文在残差模块中引入通道分离和混洗，新模块SS-nbt如下图所示，其利用了分离-转换-合并的思想，首先通道分离，分别使用专用1维滤波器避免点卷积，之后使用逐通道合并将两支融合，add上输入以加速训练，然后进行通道混洗。这样的设计轻量高效，一是能够使用更多的特征通道，二是通道混洗可以视为一种特征复用，不增加复杂度的时候提升网络的能力。
在这里插入图片描述

3.2 LEDNet网络架构

如下表所示，LEDNet使用非对称编解码结构，解码模块对特征图进行下采样，接着解码模块采用APN进行上采样恢复特征图尺寸。除了SS-nbt单元外，编码模块还包括下采样单元，有两个步长为2的 $\times 3$ 卷积和一个最大池化组成，使得深层网络捕获更多语义信息。

另外，解码模块应用了注意力机制，设计了注意力金字塔模块，使用空间注意力操作进行密集像素预测，为了扩大但感受野，APN采用集成三个不同尺度的金字塔注意力模块，包括步长为2的 $\times 3,5\times 5, 7 \times 7$ 的三个卷积，逐步融合不同尺度的特征信息，而且因为来自浅层的特征图尺寸晓，大核卷积不会造成巨大的计算资源消耗。而且解码模块的输出特征图还会被应用一个 $1\times 1$ 卷积，然后和金字塔注意力模块的特征图筑像素相加。为了进一步提升效果，论文还应用了一个全局平均池化，最终进行上采样。

4. 实验结果

定性分析-CityScapes验证集
在这里插入图片描述

定量分析-CityScapes测试集
在这里插入图片描述

5. 总结和未来方向

LEDNet采用非对称编解码结构，编码模块采用带有通道分离和混洗的残差层，解码模块设计了APN模块减少计算开支，整个网络可以端到端训练。实验结果表明LEDNet在CityScapes上缺德了最好的速度与精度的权衡。论文指出未来的方向是在APN中将标准卷积分解为1维卷积，进一步轻量化并且保持精度。

欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读，算法和其他互联网技能的学习，概率论、线性代数等高等数学知识的回顾]
在这里插入图片描述

不会算命的赵半仙

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
(ICIP2019)图像语义分割(23) LEDNet-用于实时语义分割的轻量级编解码网络

论文提出用于实时语义分割的轻量级网络分割LEDNet，采用非对称编解码结构，编码模块采用带有通道分离和混洗的残差层，解码模块设计了APN模块减少计算开支，整个网络可以端到端训练。实验结果表明LEDNet在CityScapes上缺德了最好的速度与精度的权衡。
复制链接

扫一扫