[论文笔记]Revisiting Dilated Convolution

本文提出一种基于扩张卷积的弱监督和半监督语义分割方法,通过改变扩张率扩大感受野,传递判别信息至目标区域,生成更致密的定位映射。采用抗噪声融合策略解决truenegative区域误显问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MDC论文笔记(Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation)


之前写的一些笔记,可能有些观点参考过其他博主,欢迎认领,侵删,转载请注明出处,谢谢

Abstract

  1. 研究背景
    弱监督语义分割同全监督在性能上的差距主要来源于难以生成致密的目标定位映射的局限性,因此该文章对扩张卷积(Dilated Convolution)的应用进行了重新审视
  2. 发现
    变化的扩张率可有效扩大卷积核的感受野并且能够将周围的判别信息传递到non-discriminative的目标区域
  3. 方案
    设计一个通用的分类网络,利用不同的扩张率生成可靠的目标定位映射,克服弱监督分割的限制因素
  4. 应用
    尽管提出的方案比较简单,但是在弱监督(仅含图像级标签)和半监督学习方式下均取得较好的效果

Introduction

Challenge

如何精确定位目标区域获得优质的object cues

Top-down approaches

很多学者提出自上而下的方法,利用分类网络生成类别明确的注意力线索用于目标定位。然而分类网络直接生成的注意力仅能识别到比较小和最具判别力的区域,比如类激活映射(Class Activation Mapping,CAM)
扩张卷积示意图
图1(a):本文所提方案,在分类网络中使用不同扩张率的卷积块
图1(b):生成的目标定位映射与CAM的比较

本文提出的方法

  1. 由于扩张卷积可以扩大感受野,进而将发现的目标区域信息传递到临近的区域,生成致密的目标定位
  2. 当扩张率过大时会导致true negative区域被错误地突出显示,本文提出采用一种简单有效的抗噪声融合策略来解决这个问题
  3. 利用所提方法生成定位映射去训练分割网络

Contribution

  1. 重新审视扩张卷积并发现它可以很好地满足生成致密的定位映射的要求,这对于弱监督和半监督学习来说是一种新的尝试
  2. 提出一种简单有效的方法利用扩张卷积向临近目标区域传递判别信息
  3. 可用于弱监督和半监督学习,均取得了较好的效果

Related Work

  1. 弱标注图像分割:边界框标注; 简笔标注; 实例点标注
  2. 图像级标注的语义分割
    (1) 多示例学习Multiple Instance Learning
    (2) 基于期望最大值算法(Expectation-Maximization)
    (3) 基于建议的方法:利用MCG生成的建议或者采用其他的网络生成建议会浪费大量的时间或导致属性较强的监督学习(MCG利用像素级标注图像样本进行训练)
    (4) STC大大提高的分割性能,但其主要胜在依赖于大量简单图像样本的训练
    (5) SEC综合了3个损失函数,但是它仅能提供小而稀疏的种子,这对于学习可靠的分割模型是不够的
    (6) AE-PSL方法尽管获得了较好的分割性能,但是该方法需要重复地去训练多个分类网络,而本文只需训练一个分类网络即可生成完整的目标定位区域

Proposed Method

Dilated Convolution

如下图所示,扩张卷积可通过扩大卷积核的感受野有效综合目标区域的上下文信息
扩张卷积的机制描述
图2:dilation是如何使信息迁移的

Multi-dilated Convolution for Localization

  1. 提出Multi-dilated Convolution(MDC)模块来对分类网络进行增强,生成致密的目标定位映射
    训练过程示意图
  2. 文章实现了两种卷积运算
    (1) 利用标准卷积核(d=1)获得精确的目标定位映射,但发现的区域并不完整
    (2) 利用变化的扩张率扩大卷积核的感受野(d=3,6,9,…),使得发现区域的判别信息向邻近的区域迁移,以发现更加完整的目标区域
  3. 存在问题及解决方案
    (1) 当卷积核的扩张率过大时,生成的目标定位映射同常会引入不相关的区域(比如true negative regions)。因此我们在本文中采用了较小的扩张率(d=3,6,9)
    (2) 然而采取了较小的扩张率后,仍会引入一些不相关的区域
    (3) 为解决(2)的问题,文章提出一种抗噪声融合策略。 文中提到,true positive区域通常可以通过两个或多个定位图来区分,而true negative区域则在不同的扩张下可表现出多样性。文章对不同卷积块(d=3,6,9)生成的定位图进行均值运算。然后将该均值映射添加到标准卷积块(d=1)的定位图中,生成最终的定位图,这样同时也不会丢失标准卷积块发现的精确的目标区域。
    (4) 利用显著性检测方法生成显著性映射图,对低值区域标记为背景
    训练过程细节示意图

Experiments

  • PASCAL VOC 2012数据集用于验证
  • CRF用于后处理
  • mIoU VOC2012数据集 test 60.8
  • failure cases: 当d=1时,具有大尺度和判别区域的目标只在一端突出显示(从一端到另一端信息很难通过较小的扩张率进行传递)。可能AE-PSL提出的对抗擦除方法可以解决这个问题
### Skeleton-Based Action Recognition Research and Techniques In the field of skeleton-based action recognition, researchers have developed various methods to interpret human actions from skeletal data. These approaches leverage deep learning models that can effectively capture spatial-temporal features inherent in sequences of joint positions over time. One prominent technique involves utilizing recurrent neural networks (RNNs), particularly long short-term memory (LSTM) units or gated recurrent units (GRUs). Such architectures are adept at handling sequential information due to their ability to maintain a form of memory across timesteps[^1]. This characteristic makes them suitable for modeling temporal dependencies present within motion capture datasets. Convolutional Neural Networks (CNNs) also play an essential role when applied on graphs representing skeletons as nodes connected by edges denoting limb segments between joints. Graph Convolutional Networks (GCNs) extend traditional CNN operations onto non-Euclidean domains like point clouds or meshes formed around articulated bodies during movement execution phases[^2]. Furthermore, some studies integrate both RNN variants with GCN layers into hybrid frameworks designed specifically for this task domain; these combined structures aim to simultaneously exploit local appearance cues alongside global structural patterns exhibited throughout entire pose configurations captured frame-by-frame via sensors such as Microsoft Kinect devices or other depth cameras capable of tracking multiple individuals performing diverse activities indoors under varying lighting conditions without requiring any wearable markers attached directly onto participants' limbs/skin surfaces. ```python import torch.nn.functional as F from torch_geometric.nn import GCNConv class ST_GCN(torch.nn.Module): def __init__(self, num_features, hidden_channels, class_num): super(ST_GCN, self).__init__() self.conv1 = GCNConv(num_features, hidden_channels) self.fc1 = Linear(hidden_channels, class_num) def forward(self, x, edge_index): h = self.conv1(x, edge_index) h = F.relu(h) h = F.dropout(h, training=self.training) z = self.fc1(h) return F.log_softmax(z, dim=1) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值