组会论文翻译：PIDNet：受PID控制器启发的实时语义分割网络

把奶粉扬了

已于 2023-09-25 16:35:42 修改

阅读量421

点赞数 2

分类专栏：组会文章文章标签：网络 opencv 机器学习人工智能深度学习

于 2023-09-25 14:47:21 首次发布

本文链接：https://blog.csdn.net/qq_48588989/article/details/133272011

版权

组会文章专栏收录该内容

13 篇文章 0 订阅

订阅专栏

PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

PIDNet：受PID控制器启发的实时语义分割网络

论文链接： https://arxiv.org/pdf/2206.02066.pdf
github：GitHub - XuJiacong/PIDNet: This is the official repository for our recent work: PIDNet

PIDNet是2023年发表在CVPR上的实时语义分割网络，在推理速度和准确性之间实现了最佳平衡，其中该系列的PIDNet-S在Cityscapes测试集上达到93.2FPS+78.6%mIOU。

解决的问题：传统双分支网络低层的细节信息和高层语义信息直接融合，会导致细节特征很容易被上下文信息淹没，即文中的overshoot。

思路：提出一种三分支网络架构，分别解析细节、上下文和边界信息，并设计边界注意力引导融合模块(Bag)融合三个分支的特征。

摘要

双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，直接融合高分辨率的细节和低频率的背景有一个缺点，即细节特征很容易被周围的背景信息所淹没。这种超调(overshoot)限制了现有双分支模型的分割精度的提高。在本文中，在卷积神经网络（CNN）和比例-积分-差分（PID）控制器之间建立了联系，并揭示了双分支网络相当于比例-积分（PI）控制器，它本身就存在类似的超调(overshoot)问题。为了缓解这个问题，提出了一个新的三分支网络结构：PIDNet，它包含三个分支，分别解析详细信息、背景信息和边界信息（D分支），并采用边界关注来指导详细和背景分支的融合。

1 引言

比例-积分-导数（PID）控制器是一个经典的概念，已被广泛应用于现代动态系统和过程，如机器人操纵、化学过程和电力系统。即使近年来开发了许多具有更好控制性能的先进控制策略，但由于PID控制器的简单性和鲁棒性，它仍然是大多数工业应用的首选。此外，PID控制器的理念已被扩展到许多其他领域。例如，研究人员将PID概念引入图像去噪、随机梯度衰减和数值优化，以获得更好的算法性能。在本文中，通过采用PID控制器的基本概念，为实时语义分割任务设计了一个新颖的架构，并通过大量的实验证明，该模型的性能超过了以前的所有的网络，并实现了推理速度和准确性之间的最佳权衡，如图1所示。

【语义分割现状总结】

总结一下：

1.网络目的：

the best trade-off between inference speed and accuracy：推理速度和准确率的平衡；

2. 网络模型总结：

①：轻量级编码器和解码器（卷积分解和分组卷积）

②：多尺度输入

③：分支网络

3.上下文依赖性可通过大的感受野来提取；精确的边界和小范围物体识别则依赖于细节信息。

最近，文献中提出了许多基于双分支网络（TBN）架构的新颖而有前途的模型，并实现了速度和精度之间的SOTA权衡。在本文中，从PID控制器的角度来看待TBN的结构，并指出TBN相当于一个PI控制器，并且固有的存在超调问题，如图2所示。（细节特征很容易被周围的背景信息所淹没）。

为了缓解这个问题，我们设计了一个新的三分支网络结构，即PIDNet，并在Cityscapes[12]、CamVid[5]和PASCAL Context[33]数据集上证明其优越性。我们还提供了消融研究和特征可视化，以便更好地理解PIDNet中每个模块的功能。

图2. 动态系统（左）和图像分割（右）的超调问题。

左图：二阶系统的PI和PID控制器的阶跃响应；右图：第一行为标签，第二行为DDRNet-23输出，第三行为ADB-Bag-DDRNet-23（我们的）的输出。

【本文的主要贡献有三个方面】

在深度CNN和PID控制器之间建立了联系，提出基于PID控制器架构的三分支网络系列；
提出了高效的模块，如旨在平衡细节和背景特征的Bag fusion模块，以提高PIDNets的性能。
在所有现有的模型中，PIDNet实现了推理速度和准确性之间的最佳权衡。特别是，PIDNet-S以93.2FPS的速度实现了78.6%的mIOU，而PIDNet-L在没有加速工具的情况下，在Cityscapes测试集的实时doman中呈现出最高的准确性（80.6% mIOU）。

2 Related Work

用于语义分割的大多数早期深度学习方法基于编码器-解码器架构，其中编码器通过级联跨步卷积或池化操作逐渐扩大其感受野，解码器使用反卷积或上采样从高级语义中恢复详细信息。然而，在编码器-解码器网络的下采样过程中，空间细节很容易被忽略。针对这个问题，提出了扩张卷积，它可以在不降低空间分辨率的情况下扩大视野。

然而，在DDRNet中，细节分支的输出大小是上下文分支的8倍（BiSeNet中的4倍），它们的直接融合将不可避免地导致一种现象：对象边界很容易被周围像素腐蚀，小规模对象可能被其相邻的大对象淹没，即本文中的超调，如图2所示。为了缓解超调问题，借鉴了自动化工程领域的PID概念，并提出了一种三分支网络架构：PIDNet，它这简单地补充了用于边界提取的附加分支，并利用边界来监督上下文和详细特征的融合。

3.方法

PID控制器包含三个具有互补功能的组件：比例（P）控制器表示当前误差，积分（I）控制器累积先前误差，微分（D）控制器预测未来误差变化，如图3所示。

在双分支网络中，上下文分支通过级联跨步卷积或池化层不断地从局部到全局聚集语义信息，以解析像素之间的长距离依赖关系，而细节分支保持高分辨率特征图，以保存每个单独像素的语义和定位信息。因此，细节和上下文分支可以被视为空间域中的比例和积分控制器，这解释了分割超调问题的根本原因。

图3.上图：PID控制器和提议的网络之间的类比；下图：左图：将周围的掩膜区域清零，并计算每个像素的当前特征和原始特征的相似度；右图：将周围的掩膜区域清零：从第一列到最后一列，图像指的是地面真相、所有分支的预测结果、只有细节分支、和DDRNet-23的上下文分支。

（只有PI不够，需要加上D）

【简单的一维例子举例可以总结为】

总结细节分支没有步距，上下文分支有步距；没有步距的权重更高，有步距的权重更低；权重更高就更注重局部信息，权重更低就更注重全局信息。

图3-底部显示，细节分支解析各种语义信息，尽管并不准确，而上下文分支聚合了低频的上下文信息，与语义上的大平均过滤器工作类似。直接融合细节信息和上下文信息会导致一些细节特征的缺失。因此，作者得出结论，TBN等同于傅里叶域的PI控制器。

3.0 总结：

细节分支处理高频信息（不准确），上下文分支处理低频信息。但是低频信息更厉害，直接结合在一起的时候高频信息会被掩盖掉一部分。

3.1 PID net：一个新的三分支网络

【辅助微分分支（ADB）】

为了缓解超调问题，在TBN上附加了一个辅助导数分支（ADB），在空间上模仿PID控制器，并突出高频语义信息。每个物体内部的像素的语义是一致的，只有沿着相邻物体边界才会变得不一致，所以语义的差异只有在物体边界才是非零的，ADB的目标是边界检测。因此，建立了一个新的三分支实时语义分割架构，即比例-积分-导数网络（PIDNet），如图4所示。

PIDNet 拥有三个责任互补的分支：

比例（P）分支解析并保留高分辨率特征图中的详细信息；（原细节分支）

积分（I）分支聚合局部和全局的上下文信息以解析长距离的依赖关系；（原上下文分支）

微分（D）分支提取高频特征以预测边界区域。（新增分支）

图4.提出的比例-积分-导数网络（PIDNet）的基本架构概览。S和B 表示语义和边界，Add和Up 分别指元素相加和双线性升值操作；BASLoss 表示边界感知的CE损失。虚线和关联块在推理阶段将被忽略。

采用了级联残差块作为骨干，以保证硬件的友好性。在第一个Pag模块的输出端放置一个语义头，以产生额外的语义损失I0，从而更好地优化整个网络。采用加权二元交叉熵损失l1代替dice loss，来处理边界检测的不平衡问题，因为粗糙边界更适合突出边界区域并增强小对象的特征。l2和l3代表CE损失，而我们利用边界头的输出对采用边界感知CE损失[46]，以协调语义分割和边界检测任务，增强Bag模块的功能。

分别是边界头的输出、分割的基础事实和第i个像素的c类的预测结果。因此，PIDNet的最终损失为： $Loss=\lambda_0l_0+\lambda_1l_1+\lambda_2l_2+\lambda_3l_3$

根据经验，我们将PIDNet的训练损失参数设定为λ0=0.4, λ1=20, λ2=1, λ3=1和t=0.8 。

3.2 Pag：有选择地学习高层语义

在中利用的横向连接增强了不同尺度的特征图之间的信息传递，提高了其模型的表示能力。在PIDNet中，I分支提供的丰富而准确的语义信息，对于P和D分支的细节解析和边界检测至关重要，这两个分支包含的层和通道相对较少。因此，我们将I分支视为其他两个分支的备份，并使其能够为它们提供所需信息。与直接添加所提供的特征图的D分支不同，我们为P分支引入了一个Pixel-attention-guided fusion模块（Pag），如图5所示，以便有选择地从I分支学习有用的语义特征而不被淹没。

图5. 侧面连接的Pag模块图示。Sum是指沿通道的元素总和；σ表示Sigmoid函数的输出；Up用于双线性上采样。

3.3 PAPPM：上下文信息的快速聚合

为了更好地构建全局场景先验，PSPNet引入了金字塔集合模块（PPM），在卷积层之前将多尺度集合图连接起来，形成局部和全局的上下文表示。

在这一过程中，我们可以看到，在这一过程中，有很多的问题需要解决。然而，DAPPM的计算过程在深度上不能并行化，这很耗时，而且DAPPM在每个尺度上都包含了太多的通道，这可能超过了轻量级模型的表示能力。因此，修改了DAPPM中的连接，使其可以并行化，如图6所示，并将每个尺度的通道数量从128个减少到96个。

Avg所示区域的实际操作为：池化（ks，stride）+BN+ReLU+卷积

这个新的上下文采集模块被称为并行聚合PPM（PAPPM），并被应用于PIDNet-M和PIDNet-S，以保证其速度。对于我们的深度模型：对于我们的深度模型：PIDNet-L，我们仍然选择DAPPM 来考虑其深度，但减少其通道数量以减少计算量和提高速度。

3.4 BAG：平衡细节和上下文信息

鉴于ADB提取的边界特征，我们采用边界注意力来指导细节（P）和背景（I）的融合。具体来说，我们设计了一个边界注意力引导的融合模块（Bag），如图 7 所示，分别用细节和上下文特征填充高频和低频区域。

图 7.(a)BAG 和(b)Light-BAG 式模块在极端情况下的单通道实现。P、I和D 分别指详细、上下文和边界分支的输出。σ 表示 Sigmoid 函数的输出。

当σ>0.5时，模型更信任细节特征，小于0.5时更信任上下文特征。

请注意，上下文分支在语义上是准确的，但它失去了太多的空间和几何细节，特别是对于边界区域和小物体。由于详细分支能更好地保留空间细节，我们迫使模型在边界区域更多地信任详细分支，并利用上下文特征来填充其他区域。将P、I和D特征图的相应像素的向量分别定义为~vp、~vi和~vd，那么Sigmoid、Bag和Light-Bag 的输出可以表示为：

其中f指的是卷积、批量归一化和ReLU的组成。尽管我们用Light-Bag中的两个1×1的卷积代替了Bag中的3×3的卷积，但Bag和Light-Bag的功能是相似的，即当σ>0.5时，模型更相信详细的特征，否则就会优先考虑背景信息。

4 Experiment

4.3 消融实验

ADB的两个分支网络。为了证明ADB的有效性，我们从PIDNet借用了ADB和Bag，并将其与现有模型相结合。这里，实现了两个具有代表性的两个分支网络：具有ADB和Bag的BiSeNet和DDRNet，与它们的原始模型相比，它们在Cityscapes数据集上实现了更高的精度，如表1所示。然而，额外的计算大大降低了它们的推理速度，从而引发我们建立PIDNet。

Pag和Bag的配合使用。按元素求和是在横向连接中合并特征的传统方法。我们为P分支提供了Pag模块，以帮助它从I分支学习有用的信息，而不是直接将特征图相加。此外，引入了Bag模块，以指导在最后阶段使用边界关注融合细节和上下文特征。图8中的特征图可视化显示，与第二个Pag的Sigmoid图中的大对象相比，小对象变得更暗，其中I分支丢失了更详细的信息。此外，Bag模块的输出大大增强了边界区域和小物体的特征，如图9所示，并解释了我们选择粗边界检测的原因。

4.4. 对比

CamVid。对于CamVid数据集，只有DDRNet的精度可以与我们的模型相媲美，如表5所示，以进行公平比较，我们在我们的平台上使用相同的设置测试其速度，因为我们的平台比他们的平台更先进。实验结果表明，我们的轻量级模型的准确度超过了80%mIOU，PIDNet-M实现了最高的准确度，大大领先于以前的模型，这有力地证明了我们的模型的优越性。此外，PIDNetS的精度超过了以前的最先进模型：DDRNet-23-S的精度为1.5%mIOU，延迟仅增加约1ms

Cityscapes。如表6所示，只有SFNet和DDRNet与我们的模型具有相似的精度，因此我们在与PIDNet相同的平台上测试它们的速度，以进行公平比较。实验结果表明，PIDNets在推理速度和准确性之间实现了最佳平衡。具体而言:

PIDNet-L在速度和精度方面超过SFNet（ResNet18）和DDRNet-39，通过将测试精度从80.4%mIOU提高到80.6%mIOU，成为实时领域中最准确的模型。

与具有相似推理速度的模型相比，PIDNet-M和PIDNet-S也提供了高得多的精度。特别是，PIDNet-S成为所有模型中速度最快的一个，精度高于77.5%mIOU，这将满足大多数具有严格延迟和精度要求的应用。实际性能见图10。

COCO-Stuff。PAPPM中的 (17,8)-Avg池化路径被删除，因为COCO Stuff中的图像尺寸太小。尽管沿边界区域的COCO Stuff注释不如前两个数据集精确，但与其他模型相比，我们的模型在效率方面仍具有竞争力，如表7所示

5. 结论

本文提出了一个新颖的三分支网络结构：用于实时语义分割的 PIDNet。PIDNet实现了推理时间和准确性之间的最佳权衡。然而，由于PIDNet利用边界预测来平衡细节和上下文信息，为了获得更好的性能，通常需要大量的时间对边界周围进行精确注释。

把奶粉扬了

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
组会论文翻译：PIDNet：受PID控制器启发的实时语义分割网络

双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，直接融合高分辨率的细节和低频率的背景有一个缺点即细节特征很容易被周围的背景信息所淹没。这种超调限制了现有双分支模型的分割精度的提高。在本文中，在卷积神经网络（CNN和比例积分差分（PID）控制器之间建立了联系，并揭示了双分支网络相当于比例积分（PI）控制器，它本身就存在类似的超调问题。为了缓解这个问题，提出了一个新的三分支网络结构：PIDNet，它包含三个分支，分别解析详细信息、背景信息和边界信息。
复制链接

扫一扫

专栏目录