论文笔记 - Disentangle Saliency Detection into Cascaded Detail Modeling and Body Filling

本文介绍了一种新颖的级联显著性检测方法,通过先细化细节图再填充主体,有效解决边缘预测难题和多尺度对象检测不足。提出多尺度注意力模块增强特征融合,混合损失优化细节和主体图。实验结果显示,新方法在六个数据集上取得顶尖性能。
摘要由CSDN通过智能技术生成

Disentangle Saliency Detection into Cascaded Detail Modeling and Body Filling

将显着性检测分解为细节级联和主体填充

论文地址:https://arxiv.org/pdf/2202.04112.pdf
代码地址:暂无
发表刊物:TOMM 2022

摘要
    长期以来,显着对象检测一直被研究用于识别图像/视频中最具视觉吸引力的对象。 最近,已经提出了越来越多的方法,所有这些方法都依赖于轮廓/边缘信息来提高检测性能。 边缘标签要么直接放入损失中,要么用作额外的监督。 边缘和身体也可以分开学习,然后融合。 这两种方法要么导致边缘附近的高预测误差,要么无法以端到端的方式进行训练。 另一个问题是,由于缺乏有效和有效的特征融合机制,现有方法可能无法检测到各种大小的对象。 在这项工作中,我们建议将显着性检测任务分解为两个级联的子任务,即细节建模和身体填充。 具体来说,细节建模侧重于通过监督由嵌套在边缘和边缘附近的像素组成的显式分解细节标签来捕获对象边缘。 然后身体填充学习将被填充到细节图中的身体部位,以生成更准确的显着图。 为了有效融合特征并处理不同尺度的对象,我们还提出了两种新颖的多尺度细节注意和身体注意模块,用于精确的细节和身体建模。 实验结果表明,我们的方法在六个公共数据集上实现了最先进的性能。
引言

现存问题:

  • 对象边缘附近的像素具有非常不平衡的分布,这使得这些像素比非边缘像素更难预测。 当像素接近对象边界时,现有的显着性检测模型通常会得到较大的预测误差;
  • 大多数显着性检测方法在编码器-解码器框架上建立模型,并开发不同的策略来聚合多尺度特征以获得更好的表示。然而,由于缺乏有效的融合机制来整合多尺度或多层次的特征,生成的显着图可能无法准确地预测不同尺度的物体。

主要贡献:

  • 我们提出了一种新颖的级联显著性检测框架,该框架首先生成对象的细节图,然后通过用身体图填充细节图来生成准确的显着性图。 所提出的框架降低了直接预测整个显著图的难度,并且可以以端到端的方式进行有效的训练。
  • 我们提出了两个新颖的多尺度注意力块,它们可以在多个尺度上专注地融合多个特征,以生成精确的细节和身体图。 我们还建议使用混合损失设置,专门针对细节和身体图并相互补充。
  • 我们提出的模型在四个广泛使用的指标下,在六个基准数据集上针对 10 个最新的最先进方法实现了最先进的性能。 还进行了广泛的消融研究以证明每个提议模块的有效性。
模型

模型简介:
在这里插入图片描述

细节标签:
原始显著区域中的每个像素由其到对象边界的最小距离定义。𝐸(𝑝,𝑞)表示与显着像素𝐺(𝑝,𝑞)具有最小欧几里得距离的显著边缘点。
在这里插入图片描述

多尺度细节注意力模块(Multi-scale Detail Attention Modeling):
模型包括三个多尺度细节关注块(MDAB)
注意力模块)
在这里插入图片描述

多尺度主体填充(Multi-scale Body Attention Filling):
MBAB于MDAB类似. 每个MBAB吸收三个流,包括来自主干网络的特征流、来自细节编码器的细节流和来自前一个块的主体流。 这个过程可以表示为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过三个MBAB模块后最终的预测图 S = S d e t a i l + S b o d y S=S_{detail}+S_{body} S=Sdetail+Sbody.
细节损失函数:
细节模块损失函数: l d e t a i l = l C E ( S d e t a i l , G d e t a i l ) + l S S I M ( S d e t a i l , G d e t a i l ) l_{detail}=l_{CE}(S_{detail,}G_{detail})+l_{SSIM}(S_{detail,}G_{detail}) ldetail=lCE(Sdetail,Gdetail)+lSSIM(Sdetail,Gdetail).
第一项是常用的交叉熵损失,第二项是结构相似性损失,它强制细节解码器关注边缘。
在这里插入图片描述
𝜇𝑥、𝜇𝑦和𝜎𝑥、𝜎𝑦是图像的均值和标准差,𝐶1 和 𝐶2 是小的正常数,我们将它们设置为 0.0001和 0.0009 以避免除零。

主体损失函数:
主体损失函数为: l b o d y = l C E ( S , G ) + l F ( S , G ) l_{body}=l_{CE}(S,G)+l_F(S,G) lbody=lCE(S,G)+lF(S,G)
在这里插入图片描述
总损失函数:
在这里插入图片描述

实验
**实验细节:**
  • 实验设备: 1张Quadro RTX 6000 GPU (预测时20FPS)
  • 主干网络: ResNet50 (ImageNet预训练权重)
  • 数据增强: 随机水平翻转、随机裁剪和多尺度
  • 输入尺寸: 352x352
  • 迭代次数: 50
  • 批量大小: 32
  • 优化器: SGD(衰减:0.0005,动量:0.9,主干学习率:0.005,其他:0.05,采用预热和线性衰减策略)

数据集:
训练集:DUTS-TR
测试集:ECSSD , PASCAL-S , DUT-OMRON , HKU-IS ,
THUR15K , DUTS-TE

实验结果:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

全文仅为个人理解, 如有错误欢迎指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值