Transformer去阴影！北交大&SCSU&中国移动提出CRFormer，依靠从非阴影到阴影的单向注意力来去除图片中的阴影！...

最新推荐文章于 2024-05-27 09:31:25 发布

我爱计算机视觉

最新推荐文章于 2024-05-27 09:31:25 发布

阅读量1.1k

点赞数

文章标签：卷积 python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/moxibingdao/article/details/126339135

版权

本文介绍了北交大、SCSU和中国移动合作提出的CRFormer模型，该模型利用Transformer的单向注意力从非阴影区域到阴影区域，有效去除图片中的阴影。CRFormer通过区域感知交叉注意力操作，聚合非阴影区域特征以恢复阴影区域，实现在多个数据集上的优越性能。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本篇分享论文『CRFormer: A Cross-Region Transformer for Shadow Removal』，北交大&SCSU&中国移动提出CRFormer模型，依靠从非阴影到阴影的单向注意力来去除图片中的阴影！

详细信息如下：

论文地址：https://arxiv.org/abs/2207.01600
代码地址：未开源

摘要

为了恢复图像中阴影区域的原始强度，并使其与剩余的非阴影区域无痕迹兼容的阴影去除任务是一个非常具有挑战性的问题，它有利于许多下游图像/视频相关任务。最近，transformers通过捕获全局像素交互在各种应用中显示出强大的能力，这种能力在阴影消除中非常理想。

然而，出于以下两个原因，应用transformers来促进阴影消除是非常重要的：1）由于阴影形状不规则，修补操作不适合阴影移除；2）阴影去除只需要从非阴影区域到阴影区域的单向交互，而不是图像中所有像素之间的常见双向交互。在本文中，作者提出了一种新的跨区域Transformer，即CRFormer，用于阴影去除，它不同于现有的Transformer，CRFormer只考虑从非阴影区域到阴影区域的像素交互，而不将图像分割为patch。

这是通过精心设计的区域感知交叉注意力操作实现的，该操作可以聚合以非阴影区域特征为条件的恢复阴影区域特征。在ISTD、AISTD、SRD和Video Shadow Removal数据集上的大量实验表明，与其他最先进的方法相比，本文的方法具有优越性。

Motivation

随着各种摄像机的使用越来越多，数字图像/视频无处不在，用于记录人脸、文档和精彩时刻，其中可能会出现不良阴影并降低视觉质量。阴影还会影响图像的特征表示，并可能不利地影响后续的图像/视频处理任务，例如对象检测和跟踪。为了提高图像质量并有利于下游任务，阴影消除是非常可取的，其目标是恢复物体投射的阴影区域的像素强度。由于复杂的照明条件和不规则的阴影形状，这是一个具有挑战性的问题。

由于深度卷积神经网络 (CNNs) 的进步和提取的代表性深度特征，基于CNN的方法通过表现出优于传统方法的性能而成为阴影去除的主流。来自非阴影区域的图像上下文提示对于阴影去除至关重要。不幸的是，由于卷积运算，大多数现有的基于CNN的方法在模拟大感受野的长距离像素依赖性方面是无效的。

因此，在这些方法中，没有充分利用来自非阴影区域的信息来恢复阴影区域的每个像素。最近，一种基于上下文感知的CNN方法试图通过匹配阴影和非阴影patch之间的特征相似性，然后传输成对patch的上下文信息来执行阴影去除，以帮助缓解这个问题。然而，作为先决条件，它需要一个超大的基于patch的数据集来训练上下文patch匹配模块，这既耗时又费力。从方法论的角度来看，它仅从非阴影区域中选取前3个相似的patch进行上下文信息传输，这仍然不利于利用非阴影区域中的所有像素级信息进行阴影去除。

最近，Transformer在许多计算机视觉任务中取得了成功，在这些任务中，可以有效地对远程上下文信息进行建模。因此，作者考虑利用Transformer来增强从非阴影区域到阴影区域的连接。然而，在使用Transformer去除阴影之前，需要解决两个主要挑战。

首先，Transformer采用图像patch作为输入，由于对象投射的阴影形状不规则，直观上不适合阴影去除。其次，现有Transformer的全局像素交互考