Balancing the Details and Contexts

范特西z

已于 2024-08-08 11:10:37 修改

阅读量482

点赞数 23

文章标签：人工智能

于 2024-08-06 16:06:01 首次发布

本文链接：https://blog.csdn.net/cheng_xuzhu/article/details/140949798

版权

这个专题主要写各个论文中平衡细节和上下文信息的模块

其设计初衷都是为了不让context path 和spatial path的信息相互淹没

会持续更新

1 PAG --在PIDnet中

先说一下PIDNET背景 PIDnet是三分支的

P(detailed) I(context) D(提出高频特征来预测边界区域) 三条分支

Pag：有选择地学习高级语义

在PIDNet中，I分支提供的丰富而准确的语义信息对于P、D分支的细节解析和边界检测至关重要这两个分支都包含相对较少的层和通道。因此，我们将I分支视为其他两个分支的备份，并使其能够向它们提供所需的信息。D分支是直接加 I分支是通过一个pag模块

通过Pag模块 P分支可以有选择地从I分支学习到有用的语义特征作者说Pag基本上是借鉴注意力机制的概念写的将将 P 和 I 分支的特征图中对应像素的向量分别定义为 vp 和 vi，则 Sigmoid 函数的输出可以表示:

其中σ表示这两个像素属于同一对象的可能性。如果 σ 高，我们会更信任 ⃗vi，因为 I 分支在语义上丰富且准确，反之亦然。因此，Pag的输出可以写为：

2 BAG --在PIDNET中

有了ADB提取的边界特征，我们采用边界注意力来指导融合的详细（P）和上下文（I）表示。

具体来说，我们设计了一个边界注意力引导的融合模块（Bag），如图7所示，分别用细节和上下文特征填充高频和低频区域。请注意，上下文分支(P)在语义上是准确的，但它丢失了太多的空间和几何细节，特别是对于边界区域和小对象。由于细节分支更好地保留了空间细节，我们迫使模型沿着边界区域更多地信任细节分支，并利用上下文特征填充其他区域

将P I D 分别表示为 vp, vi 和 vd,

对应图中Bag和Light-Bag的输出可以表示为:

其中 f 指的是卷积、批量归一化和 ReLU 的组合。尽管我们用 Light-Bag 中的两个 1×1 卷积替换了 Bag 中的 3 × 3 卷积，但 Bag 和 Light-Bag 的功能是相似的，即当 σ > 0.5 时，模型更信任详细特征P，否则上下文信息I是首选。

3 MSAF --在DSnet中

融合模块（MSAF），旨在实现两个不同级别分支之间的选择性学习，而不会淹没它们。其主要思想是让网络根据损失来学习特征权重，允许模型选择性地融合来自不同尺度的信息。该模块主要分为两个部分：多尺度注意力（MSA）和多尺度注意力融合模块（MSAF）。这两个分支都包含相对较少的层和通道。因此，我们将I分支视为其他两个分支的备份，并使其能够向它们提供所需的信息。

主要是由两部分组成

>MSA多尺度注意力

MSA主要是学习权重α 作为不同层次分支融合的基础主要由两部分组成区域注意和像素注意

>>>区域注意衡量特征图中不同区域的重要性.

为了方便起见，作者将特征图划分为相同大小的块(因为vit就是这样?)，例如通道为1×1，4个块为2×2，16个块为4×4。在 DSNet 中，我们将特征图划分为 1×1、4×4、8×8 和 16×16 等大小的区域。(特征图被分成了1x1 4x4 8x8和16x16这样不同尺度的块每个块的大小是这么大尺寸大的块可以捕获全局特征尺寸小的块可以捕获局部细节特征) 然后就是一系列的池化等等操作可以看图(画的比较清楚下面是公式) 总的来说就是池化> 通道压缩>reshape(上采样)

>>>像素注意像素关注度衡量每个像素的重要性

不要求对输入进行池化或者reshape 直接执行通道压缩和扩展

>多尺度注意力融合模块MSAF

通过叠加像素关注度和区域关注度来获得特征图中不同位置的权重，并且用于导出权重的公式可以由等式4表示。如图4所示，我们最终通过元素乘法融合了两个分支。区域注意力的数学公式可以描述为等式5。

4 UFAM --在pp-LiteSeg中

UAFM Unified Attention Fusion Module

UAFM框架。如图4（a）所示，UAFM利用注意力模块产生权重α，并通过Mul和Add操作将输入特征与α融合。

输入特征被表示为Fhigh和Flow。Fhigh是更深模块的输出，Flow是编码器的对应项。

请注意，它们具有相同的通道。

UAFM首先利用双线性插值操作将Fhigh上采样到与Flow大小相同的大小，同时将上采样的特征表示为Fup。

然后，注意模块将Fup和Flow作为输入，并产生权重α。注意，注意力模块可以是插件，例如空间注意力模块、通道注意力模块等。之后，为了获得注意力加权特征，我们分别对Fup和Flow应用元素式穆尔操作。最后，UAFM对注意力加权特征进行逐元素相加，并输出融合特征。

Spatial Attention Module. 空间注意力模块。空间注意力模块的动机是利用空间间的关系来产生一个权重，它代表了输入特征中每个像素的重要性。如图4（B）所示，给定输入特征，即Fup ∈ RC×H×W和Flow ∈ RC×H×W，我们首先沿通道轴沿着进行均值和极大值运算，生成四个特征，其维数为R1×H×W。然后，这四个特征被连接成特征Fcat ∈ R4×H×W。对于级联特征，应用卷积和sigmoid操作以输出α ∈ R1×H×W。空间注意力模块的公式如公式2所示。此外，空间注意力模块可以是灵活的，例如，去除最大运算以降低计算成本。

Channel Attention Module 通道关注度模块的关键概念是利用通道间的关系来生成权重，该权重指示每个通道在输入特征中的重要性。如图4（B）所示，提出的通道注意力模块利用平均池化和最大池化操作来挤压输入特征的空间维度。此过程生成四个尺寸为RC×1×1的特征。然后，它沿信道轴沿着连接这四个特征，并执行卷积和S形运算以产生权重α ∈ RC×1×1。简而言之，信道注意模块的过程可以用公式表示为等式3。