论文阅读: 1706.Deeplabv3

1706.05587:Rethinking Atrous Convolution for Semantic Image Segmentation

三大改进点

  • 去掉CRF模块。
  • 改进了ASPP:
    • 相比V2的ASPP增加了1x1的conv以及global avg pooling。
    • 对ASPP每个空洞卷积加入了BN层。
  • 在级联模块中应用空洞卷积:
    • 将空洞卷积应用在最后面的级联模块,框架可以更通用。

    • 论文中的级联模块指复制了四份block4,这四份分别使用不同rate的空洞卷积,最终block输出结果:

      • 在这里插入图片描述
    • 但这种结构效果并没有改进后的ASPP结构好:

      • 在这里插入图片描述

架构设计

  • Encoder的主体是带有空洞卷积的DCNN,可以采用常用的分类网络如ResNet,然后是带有空洞卷积的空间金字塔池化模块(Atrous Spatial Pyramid Pooling, ASPP)),主要是为了引入多尺度信息。(这种架构在DeeplabV3+中被沿用)。
  • 对于DeepLabv3,经过ASPP模块得到的特征图的output_stride为8或者16,其经过1x1的分类层后直接双线性插值到原始图片大小,这是一种非常暴力的decoder方法,特别是output_stride=16。然而这并不利于得到较精细的分割结果,故v3+模型中借鉴了EncoderDecoder结构,引入了新的Decoder模块。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DeepLabV3是一种语义分割模型,其网络结构采用了encoder-decoder结构。 它的概述可以在论文https://arxiv.org/pdf/1802.02611.pdf中找到。 DeepLabV3的优点是: 1. 它可以在图像中准确地标识和分割不同的物体和区域,因为它具有强大的语义理解能力。 2. 通过使用空洞卷积和多尺度上下文信息,DeepLabV3可以更好地捕捉物体和区域的细节和上下文信息。 3. DeepLabV3在训练时使用了批归一化和残差连接等技术,可以加速训练过程并提高模型的稳定性。 然而,DeepLabV3也存在一些缺点: 1. DeepLabV3直接使用双线性上采样将预测的特征图放大16倍以达到期望的尺寸,这可能会导致细节信息的丢失,影响分割的精确性。 2. DeepLabV3的计算量较大,因为它需要对整个图像进行推断,这可能会导致较长的推断时间。 综上所述,DeepLabV3在语义分割任务中具有强大的性能和能力,但仍然存在一些改进的空间,特别是在细节保留和计算效率方面。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [论文阅读 || 语义分割系列 —— deeplabv3+ 详解](https://blog.csdn.net/magic_ll/article/details/109731491)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值