Context Prior for Scene Segmentation论文阅读/翻译

最新推荐文章于 2023-06-15 17:24:22 发布

坚强的秃头程序媛

最新推荐文章于 2023-06-15 17:24:22 发布

阅读量242

点赞数 2

文章标签：卷积深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_42102791/article/details/106975635

版权

Context Prior for Scene Segmentation论文阅读/翻译

论文地址
Abstract
Introduction
Context Prior
Experiments

论文地址

论文链接:
https://arxiv.org/pdf/2004.01547.pdf.
源码连接：
https://github.com/ycszen/ContextPrior.

Abstract

作者研究了直接监督特征聚合的方法区分类内和类间的上下文。并在Affinity Loss（相似度损失）的监督下设计一种Context Prior（上下文先验）。给出输入图像和ground truth，相似度损失构建了一个理想的相似度图去监督上下文先验的学习。所学习的上下文先验提取属于同一类别的像素，而相反的先验则专注于不同类别的像素。嵌入到传统的深度CNN中，提出的这个的Context Prior Layer（上下文先验层）可以选择性地捕获类内和类间上下文相关性，从而实现功能强大的特征表示。为了验证方法的有效性，作者设计了CPNet，在ADE20K，PASCAL-Context，Cityscapes数据集上表现优异。

Introduction

受卷积层结构的限制，FCN提供的上下文信息不足，有很大的改进空间。现有的很多增强增强上下文信息的方法主要有两种：
（1）基于金字塔的聚合方法，但是，这种方式捕获了同类的上下文关系，而忽略了不同类别的上下文相关性。如图：当场景中存在混淆类别时，这些方法可能会导致上下文可靠性降低。

在这里插入图片描述
（2）基于注意力的聚合方法，但是，由于这种方法缺少明显的正则化，注意力机制的关系描述不太清楚。因此，它可能会选择不需要的上下文。如图：

同一类别（类内上下文）之间的相关性以及不同类之间的差异（类间上下文）使特征表示更强大，并减少了可能类别的搜索空间。因此作者设计了Context Prior（上下文先验），以将类内和类间的依赖关系建模为先验知识。将上下文先验视为二进制分类器，以区分当前像素属于同一类别的像素，而相反的先验可以集中于不同类别的像素。具体来说，首先使用全卷积网络来生成特征图和相应的先验图。对于特征图中的每个像素，先验图可以选择性地突出显示属于同一类别的其他像素，以汇总类内上下文，而相反的先验可以汇总类间上下文。为了将先验信息嵌入网络，作者开发了一个包含Affinity Loss（相似度损失）的Context Prior Layer（上下文先验层），它直接监督先验的学习。同时，上下文先验也需要空间信息来推理这些关系。为此，作者还设计了一个Aggregation Module（聚合模块），该模块采用完全可分离的卷积（在空间和深度维度上分离）来有效地聚合空间信息。
为了证明所提出的上下文先验算法的有效性，作者设计了一个简单的全卷积网络，称为上下文先验网络（CPNet）。基于骨干网络的输出特征，上下文先验层使用聚合模块来聚合空间信息以生成上下文先验映射。在相似度损失的监督下，上下文先验图可以捕获类内上下文和类间上下文以优化预测结果。

Context Prior

总览：
在这里插入图片描述

Affinity Loss

给定输入的ground truth，我们可以知道每个像素的“上下文先验”。因此，可以根据ground truth在引导网络学习上下文先验。为此，首先以ground truth作为监督构建Ideal Affinity Map（理想的相似度图）。给定输入图像 $I$ 和ground truth $L$ ，将输入图像 $I$ 送入网络，获得大小为H×W的特征图 $X$ 。如下图所示，首先下采样ground truth $L$ 使其和特征图 $X$ 有相同的尺寸，从而获得较小的 $\widetilde{L}$ .然后使用one-of-K方案（one-hot编码）去编码 $\widetilde{L}$ 中每一类的整数标签，从而获得一个H×W×C的矩阵 $\widehat{L}$ ，C是类别数。接下来把经过编码了的ground truth 重塑成N × C 的大小，其中N = H×W。最后，进行矩阵乘法： $=\widehat{L}\widehat{L}^T$ 。 $A$ 就是编码哪些像素属于同一类别的相似度图，它的形状是N×N。我们使用相似度图来监督上下文先验映射的学习。

在这里插入图片描述
对于先验图中的每个像素，这是一个二进制分类问题。解决此问题的常规方法是使用二进制交叉熵损失。给出一个 $N\times N$ 的预测先验图 $P$ ,其中 $\{p_n \in P,x \in [1,N^2]\}$ 和理想的相似度图 $A$ .其中 $\{a_n \in P,x \in [1,N^2]\}$ 二进制交叉熵损失可以表示为：
$L_u=- \frac{1}{N^2}\sum_{n=1}^{N^2}(a_nlogp_n +(1-a_n)log(1-p_n) )$

最低0.47元/天解锁文章

坚强的秃头程序媛

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Context Prior for Scene Segmentation论文阅读/翻译

Context Prior for Scene Segmentation论文阅读/翻译论文地址AbstractIntroductionContext PriorAffinity LossContext Prior Layer ContextAggregation ModuleNetwork ArchitectureExperimentsADE20KCitySpacePascal Context论文地址论文链接:https://arxiv.org/pdf/2004.01547.pdf.源码连接：ht
复制链接

扫一扫