语义分割模型SwiftNet阅读笔记

最新推荐文章于 2025-03-01 15:17:48 发布

Cris Wu

最新推荐文章于 2025-03-01 15:17:48 发布

阅读量824

点赞数 1

分类专栏：语义分割

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41582523/article/details/107499196

版权

语义分割专栏收录该内容

1 篇文章

订阅专栏

本文提出一种轻量化模型设计策略，通过共享参数的分辨率金字塔增加感受野，结合横向连接的轻量级编码器提升预测分辨率，实现模型精度与运行速度的有效平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

许多先前的工作解决了定制轻量级结构的挑战，这些结构通过减少网络的深度，宽度和层的容量来降低计算的复杂度。我们提出了一种可替代的方法，在减少计算代价上达到了显著的效果。第一，我们通过一个通用的轻量级结构来作为识别引擎，之后我们采用一个横向的连接的轻量上采样作为恢复预测分辨率的最经济有效的解决方案。最后，提出了用在多分率下融合共有特征来增加感受野。

Introduction

大多数轻量级的模型从零开始初始化训练，因此丢失了由一些大型数据集提供的知识迁移的机会，这样模型就有相当大的过拟合的风险。一般的模型有两个问题：

较低的分辨率(一般比输入图像小32倍)导致小目标较难识别
感受野过小对一些大目标难以识别到

有许多技巧可以改善这些问题，如扩张卷积，学习上采样，横向连接和分辨率金字塔等方法，但是并非所有的技巧都适用实时分割。

本文认为基于ImageNet-grade 分类的结构可以权衡模型的精度和速度，我们提出了一种基于共享参数的分辨率金字塔来增加深度模型感受野的新方法。我们的研究表明，通过一个带有横向连接的轻量级编码器，可以有效和准确地提高预测的分辨率。

The proposed segmentation method

Basic building blocks

提出了选用ResNet-18和MobileNet V2作为分割的encoders，其中ResNet支持GPU加速更胜一筹

Upsampling decoder

在这里插入图片描述
梯子型的上采样模块有两个输入：低分辨率的特征和来自先前编码器的横向特征

Module for increasing the receptive field

两种可行的增加感受野的方法 1）空间金字塔池化；2）金字塔融合，SPP模块收集编码器在几个池化层产生的特征，并生成具有不同细节级别的表示。该模型SPP block是PSPNet中的简化版本。

Single Scale model

在这里插入图片描述

黄色梯形代表卷积组，即编码器的部分，在相同的空间分辨率下工作，每个卷积组下采样一次，分辨率下降两倍，最后为H/32xW/32
绿色的SPP(Spatial Pyramid pooling)来增加模型的感受野
编码器特征维数随下采样路径增加，而蓝色上采样层维度不变，所以需要红色模块进行维度统一

Interleaved pyramid fusion model

在这里插入图片描述
紧密的编码结构会减小感受野和降低模型容纳能力，提出了一种图像金字塔来解决问题，为了增强梯度在编码器中传播，增加了一个concatenation

Experiment

Adam optimizer
learning rate set $4\times10^{-4}$ decay learning rate with cosine annealing
448x448 crops CamVid

在Cityscapes上的结果
在这里插入图片描述

在CamVid上的对比结果
在这里插入图片描述

Conclusion

通过 1）设计了比肩ImageNet上的紧凑编码器 2）轻量级的横向跳跃连接解码器；来实现精度和速度的权衡，另外，提出了一种新的交叉金字塔融合方案，它能够进一步提高对靠近摄像机的大物体的检测结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。