2万字长文超全详解！深度学习时代阴影检测、去除与生成在图像与视频中的全面综述

AI生成未来

于 2024-09-24 08:13:25 发布

阅读量3.3k

点赞数 23

分类专栏：图像生成阴影生成文章标签：人工智能图像生成阴影检测阴影生成阴影去除

本文链接：https://blog.csdn.net/AIGCer/article/details/142475784

版权

论文链接：https://arxiv.org/pdf/2409.02108
Github链接：https://github.com/xw-hu/Unveiling-Deep-Shadows

亮点直击

深度学习时代阴影分析的全面综述。本文对阴影分析进行了深入的综述，涵盖了任务、监督级别和学习范式等各个方面。本文的分类旨在增强研究人员对阴影分析及其在深度学习领域应用中的关键特征的理解。

现有方法的公平比较。目前，现有方法之间的比较存在输入大小、评估指标、不同数据集和实现平台的不一致性。本文标准化了实验设置，并在同一平台上对各种方法进行了实验，以确保公平比较。此外，实验将在新修正的数据集上进行，其中的噪声标签或真实图像已被纠正。

模型大小、速度与性能关系的探索。与以往仅关注最终性能指标的阴影分析研究不同，本文还考察了模型大小和推理速度，强调了这些特征与性能之间的复杂相互作用。

跨数据集泛化研究。认识到阴影数据集中的固有偏差，本文对现有数据集进行了跨数据集泛化研究，以评估深度模型在不同数据集上的泛化能力，为这些模型的鲁棒性提供了宝贵的见解。

开放问题和未来方向的概述，涉及AIGC和大型模型。本文探讨了阴影分析中的开放问题，重点关注图像和视频感知、编辑以及对AIGC和大型视觉/语言模型的影响。本文的见解建议了未来的研究方向，为阴影分析及其应用的进展提供了路线图。

公开可用的结果、训练模型和评估指标。本文提供了在公平比较设置下的结果、训练模型和评估指标，以及新的数据集，以促进未来的研究和该领域的进步。结合这些贡献，本文提供了全面的综述，使其与早期的评审论文有所区别。

阴影是在光线遇到障碍物时形成的，导致照明区域减弱。在计算机视觉中，阴影检测、去除和生成对于增强场景理解、改善图像质量、确保视频编辑中的视觉一致性以及提升虚拟环境至关重要。本文对过去十年中深度学习领域内图像和视频的阴影检测、去除和生成进行了全面的综述，涵盖了任务、深度模型、数据集和评估指标。本文的主要贡献包括对阴影分析的全面综述、实验比较的标准化、模型大小、速度与性能之间关系的探索、跨数据集的泛化研究、未解决问题和未来方向的识别，以及提供公开资源以支持进一步研究。

阴影检测

阴影检测预测二进制 mask，指示输入图像或视频中的阴影区域。定位阴影使得阴影编辑成为可能，并促进阴影区域分析，这对于对象检测和跟踪等高级计算机视觉任务至关重要。本小节提供了针对图像和视频的阴影检测深度模型的全面概述。此外，它还总结了用于评估阴影检测方法的常用数据集和指标。为了评估不同模型在各个方面的有效性，本文进行了实验并呈现了比较结果。

用于图像阴影检测的深度模型

下表1展示了不同方法的基本属性，为理解深度学习领域中图像阴影检测的全貌提供了便利的参考。最初，早期的深度学习方法使用深度卷积神经网络根据输入图像预测阴影特征，包括阴影边界和局部阴影块。随后，研究重点转向专门设计的端到端深度神经网络，这些网络能够直接从阴影图像生成阴影 mask。另一种方法是采用多任务学习，其中模型被训练以同时执行阴影检测和阴影去除。之后，提出了基于半监督、自监督和大型视觉模型的方法，以进一步提高在各种场景下的性能。在接下来的小节中，本文将详细描述每个类别中的方法。

组件学习

早期的方法主要采用卷积神经网络（CNN）来生成阴影特征，然后使用统计建模方法（例如，条件随机场（CRF））来获得最终的阴影 mask。

CNN-CRF 采用多个CNN在超像素级别和物体边界上学习特征，然后使用CRF模型生成平滑的阴影轮廓。
SCNN-LinearOpt 使用CNN捕捉阴影边缘的局部结构及相关特征，然后制定最小二乘优化来预测阴影mask。
Stacked-CNN 使用全卷积神经网络（FCN）输出图像级阴影先验图，随后使用补丁CNN生成局部阴影mask。然后，使用加权平均融合多个预测结果。
Patched-CNN 首先采用支持向量机与统计特征来获取阴影先验图，然后使用CNN预测补丁的阴影概率图。

使用深度卷积神经网络学习阴影特征仅在早期方法中采用。以下类别中的深度模型均为端到端训练。

单任务学习

随着深度神经网络的发展，方法采用端到端的深度模型进行阴影检测，通过直接从输入的阴影图像预测输出的阴影 mask。

scGAN 是一种条件生成对抗网络，具有可调的敏感性参数，用于调节预测阴影 mask 中阴影像素的数量。
DSC 构建了一个方向感知空间上下文（DSC）模块，以方向感知的方式分析图像上下文。该模块在卷积神经网络（CNN）中使用，生成多尺度阴影 mask ，并将其合并为最终的阴影 mask 。
DC-DSPF 堆叠多个并行融合分支以构建网络，该网络以深度监督的方式进行训练，然后使用密集级联学习方案对预测结果进行递归精炼。
CPNet 在 U-Net中添加了残差连接来识别阴影区域。
A+D Net 使用一个衰减器（A-Net）生成具有衰减阴影的真实图像，作为额外的困难训练样本，这些样本与原始训练数据一起用于训练检测器（D-Net）以预测阴影 mask 。值得注意的是，这是一个快速阴影检测器，能够实现实时性能。
BDRAR 引入了递归注意残差模块，以结合来自相邻 CNN 层的特征，并学习一个注意力图以递归选择和精炼残差上下文特征。此外，它开发了一个双向特征金字塔网络，以聚合来自不同 CNN 层的阴影特征。
DSDNet 设计了分心感知阴影（DS）模块，通过明确预测假阳性和假阴性来学习分心感知和区分特征。值得注意的是，预测的假阳性和假阴性来自其基础模型和其他阴影检测器。
CPAdv-Net 在 U-Net 的编码器层和解码器层之间设计了一个跳跃连接中的映射方案。此外，它引入了两个对抗样本生成器，从原始图像生成用于训练的数据。
DSSDNet 采用编码器-解码器残差结构和深度监督渐进融合模块，以预测航空图像上的阴影 mask 。
FSDNet 是一个快速阴影检测网络，采用 DSC 模块来聚合全局特征，并构建一个细节增强模块，以在低级特征图中提取阴影细节。它使用 MobileNet V2 作为骨干网络，以实现实时性能。
ECA 采用多种并行卷积，使用不同的卷积核来增强在适当尺度下的有效物体上下文。
RCMPNet 提出了相对置信度图回归的方法，利用一个预测网络来评估阴影检测方法的可靠性，并结合基于注意力的长短期记忆（LSTM）子模块以增强置信度图的预测。
SDCM 采用两个并行分支，分别生成阴影和非阴影 mask ，利用它们的互补特性。在训练过程中，通过使用负激活、身份重建损失和区分性损失来提升阴影检测结果的准确性。
TransShadow 使用多级特征感知模块，利用 Transformer 来区分阴影和非阴影区域，并结合渐进上采样和跳跃连接以增强特征提取效果。

多任务学习

一些方法采用端到端的深度神经网络，不仅执行 mask 预测任务，还执行其他任务，例如预测无阴影图像以进行阴影去除。这些多任务方法受益于相互之间的改进或对阴影图像的更好理解。

ST-CGAN 使用两个顺序的条件 GAN，其中第一个网络预测阴影 mask ，第二个网络通过将阴影图像和阴影 mask 作为输入来预测无阴影图像。
ARGAN 开发了注意力递归生成对抗网络，用于阴影检测和去除。生成器生成阴影注意力图，并通过多个逐步的粗到细的步骤恢复无阴影图像。此外，ARGAN 可以使用未标记的数据以半监督的方式进行训练，利用 GAN 中的对抗损失。
R2D 通过利用在阴影去除过程中学习到的阴影特征来增强阴影检测性能。所提出的 FCSD-Net 架构集成到 R2D 框架中，重点通过特别设计的检测器模块提取细致的上下文特征。它使用假阳性和假阴性以及 DSDNet中的 DS 模块。
LRA 和 LDRA 在堆叠范式中优化残差，以同时解决阴影检测和去除的挑战，指导优先重建阴影区域，并对最终的混合/颜色校正做出贡献，同时减少开销并提高各种主干架构的准确性。它生成一个配对数据集，其中包含阴影图像、无阴影图像和阴影 mask ，以进行预训练。
SDDNet 引入了样式引导的双层解耦网络用于阴影检测，利用特征分离和重组模块通过差异化监督来分离阴影和背景层。同步联合训练确保了分离的可靠性，而阴影样式过滤模块引入了样式约束（由 Gram 矩阵表示），增强了特征解耦的质量。
Sun 等人 提出了自适应照明映射 (AIM) 模块，该模块将原始图像转换为具有不同强度的 sRGB 图像，并配合利用多尺度对比信息的阴影检测模块。反馈机制指导 AIM 以阴影感知的方式渲染具有不同照明的 sRGB 图像。

半监督学习

训练深度模型进行阴影检测需要标记的阴影 mask，因此有限的训练数据量会影响深度模型在复杂情况下的性能。因此，提出了半监督阴影检测器，以便在标记和未标记的阴影图像上训练模型。

ARGAN+SS 如前文所述。
MTMT-Net 是一种成功的半监督阴影检测方法，它基于教师-学生（mean teacher）架构构建了一个多任务平均教师网络进行半监督学习。教师和学生网络以多任务学习的方式检测阴影区域、阴影边缘和阴影数量。
SDTR 和 SDTR+ 分别表示半监督和弱监督阴影检测器。新阴影图像的处理过程涉及通过可靠样本选择方案识别不可靠样本。随后，可以选择重新训练可靠样本、重新推断不可靠样本以获得精确的伪 mask，或采用灵活的注释（例如，框、点、涂鸦），并获得见解以提高深度模型的泛化能力。利用 MiT-B2 主干，SDTR 和 SDTR+ 都能实时运行。

自我监督学习

自监督学习利用数据本身作为监督信号来学习深度特征。这个理念可以在现有的训练数据集上实现，也可以使用额外的数据。

FDRNet 设计了一种特征分解和重加权方案，以减轻深度阴影检测器对强度线索的偏见。它首先采用两个自监督任务，通过使用调整亮度的图像作为监督来学习强度变化和强度不变的特征。然后，它使用累积学习对特征进行重加权。
SILT 构建了一个阴影感知迭代标签调整框架，具有阴影感知的数据增强、用于 mask 预测的全局-局部融合、阴影感知的过滤，以及整合零标记的无阴影图像以提高非阴影区域的识别能力。它收集了一些互联网图像（暗物体和无阴影图像），进一步帮助训练网络以区分阴影和暗物体。该框架使用了多种基础网络作为主干，包括 U-Net、ResNeXt101、EfficientNet 和 PVT v2。

大型视觉模型

现代大型视觉模型在一般视觉任务中表现出色。例如，“任意分割”模型（SAM）在多种物体类别的图像分割中展现了令人印象深刻的零样本性能。然而，在复杂背景和复杂场景中处理阴影仍然很困难。为了提高SAM在阴影检测方面的性能，许多方法旨在仅微调新添加的或部分结构。

SAM-Adapter 将SAM作为其骨干网络，通过整合定制信息来增强性能。这涉及在SAM编码器的每一层中集成两个多层感知机（MLP）作为适配器，同时微调适配器和SAM mask 解码器。
ShadowSAM 在多个SAM编码器层中集成两个MLP和一个GELU激活函数作为提示器。它使用非深度学习方法生成伪 mask ，并通过照明和纹理引导的更新策略来改善这些伪 mask。该方法包括用于增量课程学习的 mask 多样性指标。ShadowSAM支持无监督（使用伪 mask）和监督模式的训练。
AdapterShadow 将可训练的适配器插入到SAM的冻结图像编码器中进行微调。此外，引入了一种网格采样方法，以自动从预测的粗略阴影 mask 生成密集点提示。请注意，SAM的骨干网络是ViT-H，辅助网络的骨干是EfficientNet-B1。