Disentangle Saliency Detection into Cascaded Detail Modeling and Body Filling
将显着性检测分解为细节级联和主体填充
论文地址:https://arxiv.org/pdf/2202.04112.pdf
代码地址:暂无
发表刊物:TOMM 2022
现存问题:
- 对象边缘附近的像素具有非常不平衡的分布,这使得这些像素比非边缘像素更难预测。 当像素接近对象边界时,现有的显着性检测模型通常会得到较大的预测误差;
- 大多数显着性检测方法在编码器-解码器框架上建立模型,并开发不同的策略来聚合多尺度特征以获得更好的表示。然而,由于缺乏有效的融合机制来整合多尺度或多层次的特征,生成的显着图可能无法准确地预测不同尺度的物体。
主要贡献:
- 我们提出了一种新颖的级联显著性检测框架,该框架首先生成对象的细节图,然后通过用身体图填充细节图来生成准确的显着性图。 所提出的框架降低了直接预测整个显著图的难度,并且可以以端到端的方式进行有效的训练。
- 我们提出了两个新颖的多尺度注意力块,它们可以在多个尺度上专注地融合多个特征,以生成精确的细节和身体图。 我们还建议使用混合损失设置,专门针对细节和身体图并相互补充。
- 我们提出的模型在四个广泛使用的指标下,在六个基准数据集上针对 10 个最新的最先进方法实现了最先进的性能。 还进行了广泛的消融研究以证明每个提议模块的有效性。
模型简介:
细节标签:
原始显著区域中的每个像素由其到对象边界的最小距离定义。𝐸(𝑝,𝑞)表示与显着像素𝐺(𝑝,𝑞)具有最小欧几里得距离的显著边缘点。
多尺度细节注意力模块(Multi-scale Detail Attention Modeling):
模型包括三个多尺度细节关注块(MDAB)
)
多尺度主体填充(Multi-scale Body Attention Filling):
MBAB于MDAB类似. 每个MBAB吸收三个流,包括来自主干网络的特征流、来自细节编码器的细节流和来自前一个块的主体流。 这个过程可以表示为:
通过三个MBAB模块后最终的预测图
S
=
S
d
e
t
a
i
l
+
S
b
o
d
y
S=S_{detail}+S_{body}
S=Sdetail+Sbody.
细节损失函数:
细节模块损失函数:
l
d
e
t
a
i
l
=
l
C
E
(
S
d
e
t
a
i
l
,
G
d
e
t
a
i
l
)
+
l
S
S
I
M
(
S
d
e
t
a
i
l
,
G
d
e
t
a
i
l
)
l_{detail}=l_{CE}(S_{detail,}G_{detail})+l_{SSIM}(S_{detail,}G_{detail})
ldetail=lCE(Sdetail,Gdetail)+lSSIM(Sdetail,Gdetail).
第一项是常用的交叉熵损失,第二项是结构相似性损失,它强制细节解码器关注边缘。
𝜇𝑥、𝜇𝑦和𝜎𝑥、𝜎𝑦是图像的均值和标准差,𝐶1 和 𝐶2 是小的正常数,我们将它们设置为 0.0001和 0.0009 以避免除零。
主体损失函数:
主体损失函数为:
l
b
o
d
y
=
l
C
E
(
S
,
G
)
+
l
F
(
S
,
G
)
l_{body}=l_{CE}(S,G)+l_F(S,G)
lbody=lCE(S,G)+lF(S,G)
总损失函数:
- 实验设备: 1张Quadro RTX 6000 GPU (预测时20FPS)
- 主干网络: ResNet50 (ImageNet预训练权重)
- 数据增强: 随机水平翻转、随机裁剪和多尺度
- 输入尺寸: 352x352
- 迭代次数: 50
- 批量大小: 32
- 优化器: SGD(衰减:0.0005,动量:0.9,主干学习率:0.005,其他:0.05,采用预热和线性衰减策略)
数据集:
训练集:DUTS-TR
测试集:ECSSD , PASCAL-S , DUT-OMRON , HKU-IS ,
THUR15K , DUTS-TE
实验结果:
全文仅为个人理解, 如有错误欢迎指正!