DeeplabV3+(2018)论文笔记

本文介绍了Deeplabv3+模型,该模型在Deeplabv3基础上增加了decoder结构,使用空洞卷积获取多尺度信息,并通过改进的Xception作为backbone提高精度和效率。在PASCAL VOC2012和Cityscapes数据集上实现最优性能,分别达到89.0%和82.1%的精度。论文详细探讨了模型设计、实验选择及不同变体的性能比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

简介

  • 论文在deeplabv3的基础上添加了decoder结构,提出了deeplabv3+
    • deeplabv3中ASPP(空洞空间卷积金字塔)具有提取多尺度上下文信息(等效不同大小的感受野,卷积核参数量也不会增加)
    • 添加的decoder可以提取精细的目标边界
    • 空洞卷积可以提取backbone中任意分辨率的feature
  • 改进xception作为backbone,使用深度可分离卷积,提神精度,减少了参数量和计算量,

一、创新点

  • 提出了一个encoder-decoder的模型结构,即deeplabv3作为encoder,并添加一个简单的decoder
  • 使用的空洞卷积可以任意控制提取特征的分辨率,在权衡精度和运行时间时可做选择
  • 改进Xception,并将深度可分离卷积应用到ASPP和decoder模块中,提升了速度和精度
  • 模型在PASCAL VOC2012后和Cityscapes数据集上达到最优,分别为89.0% 和 82.1%
  • 分析了模型的设计选择和模型的变体

总结

  • 论文在实验精度上达到最优(PASCAL VOC2012和Cityscapes,89.0% 和 82.1%)
  • 进行了9组实验

二、论文链接

原文链接

[1802.02611] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (arxiv.org)

代码链接

pytorch-segmentation
deeplabplus-pytroch

论文投稿期刊

相关论文

[Xception] Xception:Deep learning with depthwise separable convolutions. In:CVPR2017 (arxiv.org)
[deeplabv3] Rethinking atrous convolutionfor semantic image segmentation(2017)(arxiv.org)
[PSPNet] Pyramid scene parsing network. In:CVPR2017

三、论文评价

  • 创新:该论文是在deeplabv3加了一点点改进(添加了decoder,改进xception作为backbone),精度提升了,综合各种模块的优势吧,创新不是很大。
  • 行文:
    • 改进小,所以论文一直在强调不同模块的优势和作用,将他们融合到模型中。
    • 在实验中体现融入模块后精确度的提升。
    • 论文模型细节的设计和实验选择描述得很详细(有decoder的设计,以及backbone的选择和改进)(在论文前面只是大致介绍层的作用,没有精确个数)

四、模型

  • deeplab模型融合了encoder-decoder结构,和SPP结构;
  • 在SPP上采用不同rate的空洞卷积变为ASPP
  • low-level feature是输入图像分辨率降维原来的1/4 ,即经历里了两个stride=2
  • 指定backbone最后输出的feature分辨率是用空洞卷积来控制的,一般output_stride选取16或8。
    -link:空洞卷积不改变分辨率,在其等效标准卷积的感受野大小时,stride和空洞rate的转化
    在这里插入图片描述
  • Image pooling: 全局平均池化 ----> 输出尺寸(1,1) ---->1*1卷积 改变通道---->上采样恢复成输入的尺寸
  • backbone提取的low-level feature 的channel 通过1*1卷积降维到48(经过试验表明,48最优)
  • 经过ASPP(每个部分通道将其降为256,共5个部分),cat为5 * 256,再经过通过1*1卷积降维到256
  • 两个feature cat之后,接上2个3*3卷积,输出channel都为256,然后接上1*1卷积,通道降维分类数
    在这里插入图片描述
  • 论文中描述了resnet101和改进的xception,使用改进的xception作为backbone效果好

五、实验

数据集

  • PASCAL VOC 2012
  • Cityscapes(50 类,包括了5000 张精准标注和20000 张粗略标注)
  • JFT-300M dataset
  • MS-COCO dataset

训练

学习率策略:poly
初始学习率:0.007

具体实验

实验1(选择low-level降维通道数)

实验2(deceder的细节设计精度比较)

在这里插入图片描述

实验3(model variants在voc上精确度和计算量的比较)

在这里插入图片描述

实验4 (backbone分类精度比较)

实验5(model variants在精确度和计算量上的比较,backbone为xception)

在这里插入图片描述

实验6 (在voc上与其他top模型的精度比较)

在这里插入图片描述

实验7(不同trimap width上精度的比较)

在这里插入图片描述

实验8 (model variants在Cityscapes上的精度比较)

实验9(在Cityscapes上与其他top模型的精度比较)

在这里插入图片描述

近年来,裂缝检测在道路维护和安全评估中变得越来越重要。为了提高裂缝检测的准确性和效率,一些研究者提出了基于注意力机制的裂缝检测网络。这种网络采用编码器-解码器的结构,其中编码器使用ResNet34作为骨干网来提取裂缝特征。在编码器和解码器之间,引入了基于注意力机制的特征模块(attention-based feature module, AFM),以利用全局信息并增加对不同尺度裂缝的鲁棒性,更好地提取和定位裂缝位置。而在解码器阶段,也引入了注意力机制,设计了基于注意力机制的解码模块(attention-based decoder module, ADM),以实现对裂缝的准确定位。实验结果表明,这种注意力机制的裂缝检测网络在裂缝检测效果上更理想,裂缝的定位更准确,细节更丰富。在实验指标F1和重合率上,也都有明显的提升,证明了这种网络的有效性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [【文献阅读笔记】之基于注意力机制的深度学习路面裂缝检测](https://blog.csdn.net/qq_44785998/article/details/123992994)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [国庆假期看了一系列图像分割Unet、DeepLabv3+改进期刊论文,总结了一些改进创新的技巧](https://blog.csdn.net/qq_38668236/article/details/127187082)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值