[论文笔记] PIDNET

仅作个人笔记 不友善我直接激情开麦

写在前面:"low-frequency"通常指的是变化缓慢或频率较低的部分,也可以理解为图像中较大区域的整体信息或背景信息 相反的"high-freque''指的是变化较快的部分 图像中小区域的细节信息.

摘要

作者首先肯定了双分支的作用  然后说直接融合高分辨率细节特征图和low-frequency(通常指的是变化缓慢或频率较低的部分,也可以理解为图像中较大区域的整体信息或背景信息。这种低频率的内容通常包含了图像的整体结构、背景或环境,而不是细节性的高频率信息)

上下文信息可能会出现overshoot现象(可能是两方信息不是很对等 直接融合可能会淹没另一方的信息 细节特征容易被周围上下文信息淹没)    

作者模仿PID控制器(其实就是相当于多加了一条分支来补充信息 融合的时候减轻这种淹没现象) 提出PIDNET 包含三个分支 分别富足解析细节,上下文,边界信息,并采用边界注意力机制来指导细节信息和上下文信息融合

引言

有一说一 这个pid不是计算机领域的(我没学过) 就是故事讲的太好了  这里直接贴翻译了 这里确实看不懂

P1 : 比例积分微分(PID)控制器是一个经典概念,已广泛应用于现代动态系统和过程,例如机器人操作[3]、化学过程[24]和电力系统[25]。 尽管近年来已经开发了许多具有更好控制性能的先进控制策略,但 PID 控制器由于其简单性和鲁棒性仍然是大多数工业应用的首选。 此外,PID控制器的思想已扩展到许多其他领域。 例如,研究人员将PID概念引入图像去噪[32]、随机梯度下降[1]和数值优化[50]以获得更好的算法性能。 在本文中,我们利用 PID 控制器的基本概念设计了一种用于实时语义分割任务的新颖架构,并证明我们的模型的性能超越了以前的所有工作,并实现了推理速度和准确性之间的最佳权衡, 如图 1 所示,通过大量实验得出。

后面就可以看原文 都是一下前任工作的总结概括 不在多说

本文创新点:

1: 作者将深度 CNN 和 PID 控制器联系起来 并提出了一系列基于 PID 控制器架构的三分支网络

(这里说的PID控制器就是在中间添加的一条额外分支

2:提出了高效的模块,例如旨在平衡细节特征和上下文特征的 Bag fusion 模块,以提高 PIDNet 的性能。

3:新sota

相关工作

依旧是经典的非实时+实时前人提出来的模型方法

实时语义分割主要是两种 一种是 轻量级编码器和轻量级解码器 另一种就是Two-Branch 

模型方法

上来先输出了一点PID的知识 本人实在不懂 感兴趣的自己看

ok正式开始介绍PIDNET  先贴张整体大图

先解释一下别名

ADB auxiliary derivative branch  辅助分支       TBN  双分支网络

作者说为了缓解这种overshoot现象  作者添加了ADB to TBN  来模拟pid控制器 并突出高频语义特征   每个对象内部像素的语义是一致的 只有沿着相邻对象的边界才变得不一致 因此于一差异尽在对象边界处较为明显 ADB的目标是边界检测 作者提出这种三分之实时语义分割架构

PIDNET三个分支 分别是 P branch: 解析并保留在高分辨率图中的详细信息 

                                        I branch: 聚合局部和全局的上下文信息以解析远程依赖关系    

(什么叫解析远程依赖关系 好比处理一张包含人和背景的图像 意味着算法能考虑到人物和周围背景的关关联 即使这些区域之间的距离远

                                        D branch :  提取高频特征来预测边界区域

通过涉资PID的深浅 有三个版本分别是PIDNet-S, M andL

作者在第一个Pag(后面会说到这个模块)的输出位置放了一个与一头 来生成额外的损失 一边更好的优化网络    采用加权二元交叉熵损失来代替骰子损失来解决边界检测的不平衡问题 因为粗糙的边界更适合突出边界区域并能增强小物体的特征 

l2 和l3 是CEloss(这个不懂的自己去搜搜)   对于l3利用边界感知ce损失 使用便街头的输出来协调语义分割和边界检测任务 增强Bag(后面也会提到)功能  BAS-Loss可以写为:

其中 t 指预定义阈值,bi、si,c 和 sˆi,c 分别是 c 类第 i 个像素的边界头输出、分割真实值和预测结果

整个PIDnet的损失可以写为:

设置λ0 = 0.4, λ1 = 20, λ2 = 1, λ3 = 1 and t = 0.8

其实这里写的不好理解  但是对比着第一张模型框架图还行 不懂作者提到的损失就去搜搜

Pag:Learning High-level Semantics Selectively

横向链接可以增强不同尺度的特征图之间的信息传输,可以提高模型的表示能力  在PIDNET中 

I分支提供的丰富语义信息对P和D分支及其重要  因为P和D的层数和通道都比较少  所以将I分支当作其他两个分支的备份 并是其能够向他们提供所需要的信息 

当然了 肯定不是直接添加的 作者设计了一个像素注意力引导融合模块Pag

通过Pag模块  P分支可以有选择地从I分支学习到有用的语义特征  作者说Pag基本上是借鉴注意力机制的概念写的   将将 P 和 I 分支的特征图中对应像素的向量分别定义为 vp 和 vi,则 Sigmoid 函数的输出可以表示:

其中σ表示这两个像素属于同一对象的可能性。 如果 σ 高,我们会更信任 ⃗vi,因为 I 分支在语义上丰富且准确,反之亦然。 因此,Pag的输出可以写为:

PAPPM: Fast Aggregation of Contexts

PSPNet 引入了金字塔池化模块(PPM),它在卷积层之前连接多尺度池化图以形成局部和全局上下文表示。有人提出的深度聚合PPM(DAPPM)进一步提高了PPM的上下文嵌入能力,并表现出优越的性能。但是作者说DAPPM无法在深度上并行化处理非常耗时  而且DAPPM每个尺度包含了太多的通道这可能超出轻量级模型的表示能力  作者提出的PAMM修改了DAPPM中的连接 使其可以并行化  并且将诶个尺度的通道数从128个降低到96个

Bag: Balancing the Details and Contexts

看这之前先去看一下整体的大图 看看Bag这个模块在哪个位置

给定ADB提取的边界特征 采用边界注意力(Bag)来指导P和I的融合   P在语义上是准确的但是丢失了太多空间和几何细节 特别是对于边界区域和小目标  但是详细分支I可以更好的保留空间细节  使模型更加信任边界区域的详细分支 并利用上下文特征来填充其他区域

对应途中Bag和Light-Bag的输出可以表示为:

其中 f 指的是卷积、批量归一化和 ReLU 的组合。 尽管我们用 Light-Bag 中的两个 1×1 卷积替换了 Bag 中的 3 × 3 卷积,但 Bag 和 Light-Bag 的功能是相似的,即当 σ > 0.5 时,模型更信任详细特征,否则上下文信息是 首选。

实验

有无ADB-Bag

比较add+add 和pag +bag

特征融合

损失

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值