PreyNet: Preying on Camouflaged Objects
PreyNet: 伪装物体识别
论文地址:https://dl.acm.org/doi/abs/10.1145/3503161.3548178
代码地址:https://github.com/OIPLab-DUT/PreyNet
主要贡献:
- 我们提出了用于初始检测的双向桥接交互模块(BBIM)。该模块选择性地在两个相邻层之间交互特征,并以专注的方式聚合信息伪装的线索。
- 我们为 COD 引入了捕食者学习,它首先生成知情的确定性和不确定性指导,然后进行有效的特征校准。这使我们的网络能够通过经验学习并专注于困难区域,以实现准确可靠的伪装检测。此外,根据估计的不确定性图计算出的自适应权重被分配给多层监督。
模型简介:
Initial Detection
出当猎物与背景混合时,选择性注意在捕食者的感觉过程中起着重要作用。受此启发,我们设计了BBIM模块,通过使用空间注意力和通道注意力得到全局特征和局部特征. 在两条路径之间进行消息传递和聚合之前,应根据是否对对端路径有利的原则来选择信息。
Predator Learning
为了模拟捕食者的学习过程,我们设计了一种双译码器结构,它由一个策略译码器和一个校准译码器组成,一个策略译码器根据经验对某些和不确定区域进行判断,另一个校准译码器在指导下对困难进行学习。
首先是如何获得反映不同地区难度水平的不确定性图。为了解决这一问题,我们将不确定度建模为初步分割与基础真相之间的差值,在动态学习过程中获得不确定度图。
然而,估计的不确定性图可能具有潜在的不准确性或不完整性,因此我们采用:
这里的𝜃取3, soft是滑动窗口为𝜃的maxpooling.
此外, 我们设计了一个不确定性感知校准模块 (UACM)。
(这里运用通道分组插入
M
c
M_c
Mc和
M
s
u
M_{su}
Msu,然后组合形成生成注意力权重,对特征图加权输出)
损失函数:
对于cod预测结果使用加权bce和加权iou:
L
c
o
d
=
L
b
c
e
w
+
L
i
o
u
w
L_{cod}=L_{bce}^{w}+L_{iou}^{w}
Lcod=Lbcew+Liouw
对于不确定性感知,我们使用加权bce.
并且我们还使用辅助监督策略. 以前的方法采用比例序列或者特殊的值. 在本文中,我们利用估计的不确定性图为策略解码器中的多层监督提供自适应权重。具体来说,我们计算 𝑖-𝑡ℎ 层侧输出预测的可靠性分数
𝑟
𝑖
𝑟^𝑖
ri:
其中U是不确定像素, V是前景像素.
总损失如下:
- 实验设备: 2080Ti GPU
- 主干网络: ResNet50
- 数据增强: 随机翻转、旋转和颜色抖动行为
- 输入尺寸: -
- 迭代次数: 100
- 批量大小: 16
- 优化器: Adam(lr: 1e-4)
- FPS: 53
数据集:
训练集: -
测试集: -
实验结果:
消融实验:
模块有效性分析:
PL是解码器, AW是自适应权重
表格3替换了训练时的自适应权重,采用别的模型的策略.
此外, 本文提出的模块可以便捷的用于别人的模型中:
在本文中,我们提出了一种新颖的 PreyNet 来模拟成功的掠食者在准确伪装目标检测方面的更新行为。我们开发了一个双向桥接交互模块来利用感官机制,并开发了一种策略和校准过程来挖掘认知机制。我们还在训练期间采用自适应加权策略进行多层监督。三个基准的广泛结果表明,我们的 PreyNet 实现了最先进的性能。未来,考虑到伪装对象通常与它们的背景具有高度相似性,最好将图像增强 (14)-1 作为预处理步骤来促进检测。
全文仅为个人理解, 如有错误欢迎指正!