【论文笔记】Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection

最新推荐文章于 2025-04-23 18:01:05 发布

迷途老书虫

最新推荐文章于 2025-04-23 18:01:05 发布

阅读量1.2k

点赞数 2

文章标签：目标检测论文阅读计算机视觉

本文链接：https://blog.csdn.net/u011490237/article/details/130700534

版权

文章提出了一种新的多任务自动编码变换(MAET)模型，用于改善黑暗环境下的目标检测。MAET通过自我监督学习内在视觉结构，结合物理噪声模型和图像信号处理，对光照退化进行编码和解码。正交切线规则用于避免任务间的纠缠，提高检测性能。该框架适用于主流目标检测架构，可在有限的数据集上进行训练，并在合成和真实数据集上达到最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Overview

Title：Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection

Time：2021

Journal：ICCV 2021

Majors：CV

Link：

https://arxiv.org/abs/2205.14871
https://github.com/cuiziteng/ICCV_MAET

Summary

黑暗环境由于光子不足和噪声的影响，对计算机视觉算法提出了挑战。为了增强在黑暗环境下的目标检测，我们提出了一种新的多任务自动编码变换(MAET)模型，该模型能够探索照明转换背后的内在模式。
MAET以一种自我监督的方式，考虑物理噪声模型和图像信号处理(ISP)，通过对现实光照退化变换进行编码和解码来学习内在视觉结构。
基于这种表示，我们通过解码边界框坐标和类来实现目标检测任务。为了避免两个任务的过度纠缠，我们的MAET通过施加正交切线规则来解除对象的纠缠并降低特征。这形成了一个参数流形，沿着这个流形，可以通过最大化沿各自任务输出的切线之间的正交性来几何地表示多任务预测。
我们的框架可以基于主流的目标检测架构来实现，并直接使用正常的目标检测数据集(如VOC和COCO)进行端到端训练。我们使用合成和真实世界的数据集实现了最先进的性能。

Research Objective

暗光场景下的high-level vision task，比如检测分割分类这种，往往受限于三个显著的缺点，
- 第一是环境中的光子数量很少，而且相机中的in-camra noise很大。
- 第二是直接用图像增强手段，增强的评价指标是PSNR和SSIM（人眼视觉），而High-level-vision task的评价指标是mAP和IOU这类（机器视觉），导致了评价指标不一致性。
- 第三是暗光场景下的数据集很少，无法像COCO，ImageNet那样有大规模的数据集训练。
我们的目标是在一个统一的框架下弥合以上两个差距。正常照明的图像可以参数化转换(tdeg)为其退化的低照度对应物。在此基础上，提出了一种新的多任务自编码变换(MAET)来提取变换等变卷积特征，用于暗图像中的目标检测。

Related Work

Low Illumination Datasets
- 夜间行人检测的NightOwls数据集.
- 无约束的人脸检测数据集(UFDD)，该数据集考虑了各种不利条件，如雨、雪、雾霾和低照度。
- 多类暗目标检测任务，Loh等[25]提出了exclusive dark (ExDark)数据集，该数据集包含7363张图像，包含12个目标类别。
Low-Light Vision
- Enhancement and Restoration Methods
- High-Level Task
- Transformation-Equivariant Representation Learning