[论文笔记] PIDNET

范特西z

于 2024-07-10 14:55:39 发布

阅读量710

点赞数 19

文章标签：论文阅读深度学习人工智能

本文链接：https://blog.csdn.net/cheng_xuzhu/article/details/140315755

版权

仅作个人笔记不友善我直接激情开麦

写在前面:"low-frequency"通常指的是变化缓慢或频率较低的部分，也可以理解为图像中较大区域的整体信息或背景信息相反的"high-freque''指的是变化较快的部分图像中小区域的细节信息.

摘要

作者首先肯定了双分支的作用然后说直接融合高分辨率细节特征图和low-frequency(通常指的是变化缓慢或频率较低的部分，也可以理解为图像中较大区域的整体信息或背景信息。这种低频率的内容通常包含了图像的整体结构、背景或环境，而不是细节性的高频率信息)

上下文信息可能会出现overshoot现象(可能是两方信息不是很对等直接融合可能会淹没另一方的信息细节特征容易被周围上下文信息淹没)

作者模仿PID控制器(其实就是相当于多加了一条分支来补充信息融合的时候减轻这种淹没现象) 提出PIDNET 包含三个分支分别富足解析细节,上下文,边界信息,并采用边界注意力机制来指导细节信息和上下文信息融合

引言

有一说一这个pid不是计算机领域的(我没学过) 就是故事讲的太好了这里直接贴翻译了这里确实看不懂

P1 : 比例积分微分（PID）控制器是一个经典概念，已广泛应用于现代动态系统和过程，例如机器人操作[3]、化学过程[24]和电力系统[25]。尽管近年来已经开发了许多具有更好控制性能的先进控制策略，但 PID 控制器由于其简单性和鲁棒性仍然是大多数工业应用的首选。此外，PID控制器的思想已扩展到许多其他领域。例如，研究人员将PID概念引入图像去噪[32]、随机梯度下降[1]和数值优化[50]以获得更好的算法性能。在本文中，我们利用 PID 控制器的基本概念设计了一种用于实时语义分割任务的新颖架构，并证明我们的模型的性能超越了以前的所有工作，并实现了推理速度和准确性之间的最佳权衡，如图 1 所示，通过大量实验得出。

后面就可以看原文都是一下前任工作的总结概括不在多说

本文创新点:

1: 作者将深度 CNN 和 PID 控制器联系起来并提出了一系列基于 PID 控制器架构的三分支网络

(这里说的PID控制器就是在中间添加的一条额外分支

2:提出了高效的模块，例如旨在平衡细节特征和上下文特征的 Bag fusion 模块，以提高 PIDNet 的性能。

3:新sota

模型方法

上来先输出了一点PID的知识本人实在不懂感兴趣的自己看

ok正式开始介绍PIDNET 先贴张整体大图

先解释一下别名

ADB auxiliary derivative branch 辅助分支 TBN 双分支网络

作者说为了缓解这种overshoot现象作者添加了ADB to TBN 来模拟pid控制器并突出高频语义特征每个对象内部像素的语义是一致的只有沿着相邻对象的边界才变得不一致因此于一差异尽在对象边界处较为明显 ADB的目标是边界检测作者提出这种三分之实时语义分割架构

PIDNET三个分支分别是 P branch: 解析并保留在高分辨率图中的详细信息

I branch: 聚合局部和全局的上下文信息以解析远程依赖关系

(什么叫解析远程依赖关系好比处理一张包含人和背景的图像意味着算法能考虑到人物和周围背景的关关联即使这些区域之间的距离远

D branch : 提取高频特征来预测边界区域

通过涉资PID的深浅有三个版本分别是PIDNet-S, M andL

作者在第一个Pag(后面会说到这个模块)的输出位置放了一个与一头来生成额外的损失一边更好的优化网络采用加权二元交叉熵损失来代替骰子损失来解决边界检测的不平衡问题因为粗糙的边界更适合突出边界区域并能增强小物体的特征

l2 和l3 是CEloss(这个不懂的自己去搜搜) 对于l3利用边界感知ce损失使用便街头的输出来协调语义分割和边界检测任务增强Bag(后面也会提到)功能 BAS-Loss可以写为:

其中 t 指预定义阈值，bi、si,c 和 sˆi,c 分别是 c 类第 i 个像素的边界头输出、分割真实值和预测结果

整个PIDnet的损失可以写为:

设置λ0 = 0.4, λ1 = 20, λ2 = 1, λ3 = 1 and t = 0.8

其实这里写的不好理解但是对比着第一张模型框架图还行不懂作者提到的损失就去搜搜

Pag:Learning High-level Semantics Selectively

横向链接可以增强不同尺度的特征图之间的信息传输,可以提高模型的表示能力在PIDNET中

I分支提供的丰富语义信息对P和D分支及其重要因为P和D的层数和通道都比较少所以将I分支当作其他两个分支的备份并是其能够向他们提供所需要的信息

当然了肯定不是直接添加的作者设计了一个像素注意力引导融合模块Pag

通过Pag模块 P分支可以有选择地从I分支学习到有用的语义特征作者说Pag基本上是借鉴注意力机制的概念写的将将 P 和 I 分支的特征图中对应像素的向量分别定义为 vp 和 vi，则 Sigmoid 函数的输出可以表示:

其中σ表示这两个像素属于同一对象的可能性。如果 σ 高，我们会更信任 ⃗vi，因为 I 分支在语义上丰富且准确，反之亦然。因此，Pag的输出可以写为：

PAPPM: Fast Aggregation of Contexts

PSPNet 引入了金字塔池化模块（PPM），它在卷积层之前连接多尺度池化图以形成局部和全局上下文表示。有人提出的深度聚合PPM（DAPPM）进一步提高了PPM的上下文嵌入能力，并表现出优越的性能。但是作者说DAPPM无法在深度上并行化处理非常耗时而且DAPPM每个尺度包含了太多的通道这可能超出轻量级模型的表示能力作者提出的PAMM修改了DAPPM中的连接使其可以并行化并且将诶个尺度的通道数从128个降低到96个

Bag: Balancing the Details and Contexts

看这之前先去看一下整体的大图看看Bag这个模块在哪个位置

给定ADB提取的边界特征采用边界注意力(Bag)来指导P和I的融合 P在语义上是准确的但是丢失了太多空间和几何细节特别是对于边界区域和小目标但是详细分支I可以更好的保留空间细节使模型更加信任边界区域的详细分支并利用上下文特征来填充其他区域

对应途中Bag和Light-Bag的输出可以表示为:

其中 f 指的是卷积、批量归一化和 ReLU 的组合。尽管我们用 Light-Bag 中的两个 1×1 卷积替换了 Bag 中的 3 × 3 卷积，但 Bag 和 Light-Bag 的功能是相似的，即当 σ > 0.5 时，模型更信任详细特征，否则上下文信息是首选。

实验

有无ADB-Bag

比较add+add 和pag +bag

特征融合

损失

范特西z

关注

19
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记] PIDNET

作者首先肯定了双分支的作用然后说直接融合高分辨率细节特征图和low-frequency(通常指的是变化缓慢或频率较低的部分，也可以理解为图像中较大区域的整体信息或背景信息。这种低频率的内容通常包含了图像的整体结构、背景或环境，而不是细节性的高频率信息)上下文信息可能会出现overshoot现象(可能是两方信息不是很对等直接融合可能会淹没另一方的信息细节特征容易被周围上下文信息淹没)
复制链接

扫一扫