Multi-stage context refinement network for semantic segmentation

用于语义分割的多阶段上下文细化网络

背景

卷积神经网络中的下采样操作会降低初始图象分辨率,丢失图像空间细节,导致图像分割结果模糊。

贡献

  1. 通过提取不同阶段的图像特征来捕获更多的空间和上下文信息,从而获得更好的分割性能
  2. 提出网格形式的膨胀卷积和链模型结构组成最低分辨率链上下文聚合模块。更多的感受野
  3. 特征提取和特征细化组成的高分辨率上下文注意力细化模块,不仅收集了不同阶段的上下文特征,还融合和了多阶段的空间信息,从而可以提高空间上下文的利用率

实验

PASCAL VOC2012 是一个著名的语义分割基准数据集,包含 20 个前景对象类和 1 个背景类。有 1464 个训练图像、1449 个验证图像和 1456 个测试图像。
ADE20K MIT 数据集非常具有挑战性,它包含 22 K 密集标注的图像和 150 个细粒度语义概念。训练集和验证集分别由 20 K 和 2 K 图像组成。
Cityscapes 数据集是一个用于城市街景语义分割的大型数据集,具有 19 个语义类的高质量像素级标签。它分为两种类型:精细数据集和粗数据集。精细数据集包含来自 50 个不同城市的 5,000 张图像、训练数据集中的 2,979 张图像、验证数据集中的 500 张图像以及测试数据集中的 1,525 张图像。Coarse 数据集有 19998 张图像。每张图像的分辨率为 2048*1024。

方法

在这里插入图片描述

Lowest-resolution chain context aggregation

对于像素级分类任务,语义上下文信息非常重要。一般来说,分辨率较低的特征图中存在较多的语义上下文,因此通常采用下采样来降低分辨率来获取语义信息。但是,下采样会导致图像细节丢失。为了捕获更多的语义上下文信息以及图像细节,我们通过采用具有不同膨胀率的膨胀卷积来增加感受野,从而构建了一个分辨率最低的链上下文聚合模块。图 3 显示了我们提出的最高分辨率链上下文聚合模块的结构。从图 3 可以看出,它有 5 个链上下文分支。
在这里插入图片描述
把低分辨率特征图通过不同膨胀率的膨胀卷积获得不同尺度特征,增加感受野,缓解因分辨率下降造成的细节信息丢失

High-resolution context attention refinement

在这里插入图片描述
图 4 的左侧部分显示了上下文特征提取部分的结构。对于不同阶段的特征图XHS,我们首先使用普通的33卷积来获取局部上下文信息,然后使用膨胀卷积的33卷积来增加特征感受野,从而获得全局上下文信息。我们进一步将批量归一化 (BN) 和参数 ReLu 应用于普通卷积和膨胀卷积。接下来,我们将提取的全局信息和局部信息融合在一起,并使用没有两个完整连接层的SE注意力模型来引导提取的特征上下文信息。最后,我们在整个上下文特征提取部分添加了原始特征图的残差连接,以保证梯度的平滑传播。
提取各阶段的高分辨率上下文特征后,进一步融合高分辨率上下文特征和低分辨率上下文特征,并通过注意力细化方法细化融合特征。整个过程称为上下文特征细化,其结构如图 4 的右侧所示。实际上,我们首先使用语义流方法[46]Semantic flow for fast and accurate scene parsing将高分辨率上下文特征和低分辨率上下文特征进行融合,以尽可能减少两者的特征排斥反应,并整合不同阶段的特征,融合结构如图4 Flow Fusion的子图所示。此外,我们根据以下步骤进行细化。首先,我们使用全局平均池化来捕获全局信息,并使用 1 1 卷积和 sigmoid 将其转换为全局特征图。
其次,使用 3 3 卷积和 3 3 展开卷积对 Conv [43]-BN [41]-ReLU [42] 处理的全局特征图进行细化,并进行简单的批量归一化 (BN) 和 ReLu 运算。处理后的特征图具有全局感受野和局部感受野,我们使用初始的全局特征图将其连接起来,以细化不同大小的物体的特征。最后,我们使用跳转连接将初始特征信息与最终输出相结合,以补偿卷积池化操作造成的信息损失。

Thinking

提出了一种用于语义分割的多阶段上下文细化网络(MCRNet)。提出的LCCA模块处理低分辨率特征图,并使用链结构收集丰富的语义上下文信息,以指导高级特征语义上下文信息的获取。我们提出的HCAR模块首先利用局部和全局上下文信息的融合来提取高分辨率地图的特征,然后对其特征图进行细化重新校准,以增强不同对象之间的特征相关性。采用深度引导和浅层引导,以渐进的残差结构执行密集的预测任务。实验结果表明,所提出的MCRNet是有效的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
"Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition" 是一篇关于基于骨架的动作识别的论文。如果要提出改进方法,可以考虑以下几个方向: 1. 模型结构改进:可以尝试改进论文中提出的Channel-wise Topology Refinement Graph Convolution模块。例如,可以探索更复杂的图卷积模型结构,引入更多的注意力机制或者跨层连接,以提高模型对骨架数据的建模能力。 2. 数据增强和预处理:骨架数据可能存在缺失或者噪声,可以尝试使用数据增强技术(如旋转、平移、缩放)来增加数据的多样性和鲁棒性,或者使用预处理技术(如滤波、插值)来处理数据中的噪声和缺失。 3. 图结构优化:可以尝试优化骨架数据的图结构表示。例如,可以使用图剪枝算法来去除冗余的边或节点,或者使用图生成算法来自动构建更准确的图结构。 4. 跨模态信息融合:可以考虑将骨架数据与其他传感器数据(如深度图像或RGB图像)进行融合。通过融合不同模态的信息,可以提高对动作的理解和识别能力。 5. 模型训练优化:可以探索更有效的模型训练方法,例如引入更合适的损失函数或者优化算法。此外,可以尝试使用迁移学习或领域自适应的方法,将从其他相关任务或领域中学到的知识迁移到骨架动作识别任务中。 以上是一些可能的改进方向,具体的改进方法需要根据具体问题和实验结果来确定。同时,也可以参考相关领域的最新研究和技术进展,以获取更多的启发和创新点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值