揭秘色彩魔法：智能感知背景下的文档图像阴影消除

昇思MindSpore

于 2024-06-19 15:43:24 发布

阅读量556

点赞数 20

文章标签：开源自然语言处理学习深度学习人工智能

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/139805160

版权

论文标题

Document Image Shadow Removal Guided by Color-Aware Background

论文来源

CVPR 2023

论文链接

https://openaccess.thecvf.com/content/CVPR2023/html/Zhang_Document_Image_Shadow_Removal_Guided_by_Color-Aware_Background_CVPR_2023_paper.html

代码链接

https://github.com/features/packages

昇思MindSpore社区支持顶级会议论文研究，持续构建原创AI成果。本文是昇思MindSpore AI顶会论文系列第39篇，我选择了来自武汉大学计算机学院的肖春霞老师团队发表于CVPR的一篇论文解读，感谢各位专家教授同学的投稿更多精彩的论文精读文章和开源代码实现请访问Models。

研究背景

纸质文档在人们的生活中随处可见，例如课本、报纸、传单、收据等等。纸质文档承载着大量有用的信息，这些信息在人们的日常工作与生活中起着至关重要的作用。有时人们需要将文档数字化以便保存或通过电子邮件发送给朋友。随着近几年智能手机的飞速发展和成像质量的提高，人们更加倾向于使用手机进行数字文档复制。然而，当光源被遮挡时，捕获的文档图像非常容易受到阴影的影响。阴影区域的低亮度降低了文档图像的质量和可读性，导致内容难以辨认，用户体验不愉快。因此，文档图像的阴影去除是各种视觉应用所需的图像处理任务。

团队介绍

论文第一作者张玲现为武汉科技大学计算机学院副教授, 硕士生导师。2022年湖北省“楚天学子”。主要研究方向为图像视频处理、计算机图形学。长期从事图像视频处理等领域研究，在国际著名专业刊物和会议上发表了多篇文章。先后主持了1项国家自然科学基金项目、1项湖北省自然科学基金面上项目和1项中国博士后面上科学基金。

论文通讯作者肖春霞现为武汉大学计算机学院教授，入选教育部新世纪人才计划，武汉大学珞珈特聘教授，主要从事计算机图形学、虚拟现实、增强现实、计算机视觉等领域的研究工作。已发表论文160余篇，其中在TOG、TPAMI、IJCV、TVCG等国际权威或重要SCI学术期刊发表论文80余篇，在CVPR、ICCV、ECCV、AAAI等国际顶级学术会议上发表论文30余篇。已授权国家专利34项，授权软件著作权10项。获得2019年湖北省自然科学奖二等奖（第一完成人）、2023年湖北省科技进步奖二等奖（第一完成人）。主持国家自然科学基金6项，教育部新世纪人才计划1项，国家973重点基础研究项目子课题1项，国家863计划重点项目子课题1项，国家重点研发计划项目子课题1项，湖北省重大科技创新计划项目1项。

论文简介

本文首先引入颜色感知背景提取网络(CBENet)来估计阴影图像的空间变化背景。然后，提出了一种基于背景的文档图像阴影去除网络(BGShadowNet)，该网络使用估计的背景作为辅助信息来促进阴影消除任务。图1展示了CBENet和BGShadowNet的框架。

图1.CBENet和BGShadowNet网络框架图

CBENet估计的空间变化背景用于帮助BGShadowNet产生高质量的阴影去除结果。

BGShadowNet使用背景约束解码器首先预测粗略的阴影去除结果。

使用BAModule和DEModule对粗略结果进行细化。

3.1 颜色感知背景提取网络CBENet

通常的方法假设文档具有恒定的背景颜色，但是恒定颜色的背景和图像之间可能存在差异。例如，由于彩色打印，可能存在其他背景颜色，如图2(a)所示。恒定的背景会导致不理想的结果，如图2(c)所示。

图2. 提取的背景图像和相应的阴影去除图像

说明：(a)是输入图像；(b)和(c)是BEDSR-Net预测的背景图像和阴影去除结果；(d)和(e)是本文的空间变化背景图像和阴影去除结果；(f)是相应的GT图像

为了解决这个问题，本文提出了一个颜色感知背景提取网络CBENet，为文档图像提取空间变化的颜色背景B，它保留了图像中的不同背景颜色，如图2(d)所示。与恒定背景相比，空间变化背景可以为后续的阴影去除网络提供更多有用的颜色信息。请注意，该背景是无阴影的，这可以帮助BGShadowNet学习更多的无阴影功能，有助于去除阴影，同时更好地避免图像中的照明或彩色伪影(见图2(e))。

训练CBENet时，本文使用了一个具有局部到全局策略的背景计算器来构建GT背景作为监督器。具体来说，首先将无底色阴影图像Igt划分为16×16个小块，得到局部背景B。对于每个小块，使用高斯混合模型(Gaussian Mixture Model, GMM)根据图像的像素强度将其聚类成两个簇，分别对应文本内容和背景。观察到文档的背景颜色通常更亮，将强度较高的聚类作为背景聚类，并将背景聚类的平均颜色作为patch的背景。由于不同的patch具有不同的背景颜色，因此局部背景B通常具有明显的patch边界，如图3(b)所示。然后采用保色平滑算子对B进行优化，得到图像所需的真实背景图像B，如图3(c)所示。

图3. 背景可视化：(a)阴影图像、(b)局部背景图像和(c)最终背景图像

3.2 背景引导的阴影去除网络

本文提出了一种利用背景图像作为补充信息的背景引导阴影去除网络BGShadowNet。如图1所示，BGShadowNet包括两个阶段。在第一阶段，除了图像编码器之外，还引入了背景约束解码器来产生粗阴影去除结果。在第二阶段，为了改善粗糙结果并产生最终的无阴影图像，将基于背景的注意力模块BAModule和细节增强模块DEModule嵌入到编码器-解码器网络中。最后叠加一个鉴别器来区分生成的图像是否真实。本文选择DenseUnet和马尔可夫鉴别器作为编码器-解码器结构和鉴别器。

Background-constrained解码器。为了充分利用背景图像的特征，在第一阶段用背景约束解码器取代了普通解码器。具体来说，背景编码器的特征在每个相应的级别被集成到背景约束解码器中。集成的特征可以图像特征，并有助于产生令人满意的阴影去除结果。

Background-based 注意力模块。一般来说，具有相似背景的区域在图像中应该具有相似的外观(颜色和照明)。然而，在粗糙的阴影去除结果中可能存在照明或彩色伪影(见图4(b))。为了保持图像的整体一致性，本文引入了基于背景的注意模块BAModule。BAModule利用学习到的背景特征和注意机制，帮助消除图像中的外观不一致(见图4(d))。

细节增强模块。由于网络中存在多次卷积和下采样算子，部分细节信息在高层丢失，导致细节模糊(见图4(c))。与高级特征相比，CNN层中的低级特征通常包含更多的纹理细节。因此，本文引入了一个细节增强模块DEModule，利用网络的底层特征来恢复粗糙结果的纹理细节。

图4.第一阶段和第二阶段的结果

说明：(a)：输入；(b)：第一阶段的粗略结果；(d)：第二阶段的结果；(c)&(e)：(b)和(d)的特写。

实验结果

为了验证本文方法的有效性，将本文的结果与各种最先进的阴影去除方法进行了比较，包括三种文档图像阴影去除方法(Bako、Jung和BEDSR-Net)和六种自然图像阴影去除方法(ST-CGAN、DSC、DHAN、Fu、CANet、SG-ShadowNet和BMNet)。为了进行公平的比较，使用RDD数据集在同一硬件上训练所有基于学习的方法。表1总结了比较结果。从表中可以看出，本文的方法在所有比较方法中获得了所有指标的最佳值，清楚地显示了有效性。

表1.定量比较结果

图5提供了一些视觉阴影去除结果，进一步证明了本文方法的优越性。可以看出，DSC在处理重阴影图像时是失败的(见图5(c))。Fu的鲁棒性有限，其结果可能包含未去除的阴影，如图5(d)所示。DHAN和CANet也存在与Fu相似的问题。Jung忽略了文档的内容特征，导致了明显的色彩和光照失真(见图5(b))。在恒定的背景下，BEDSR-Net的结果有时会沿着阴影边界呈现伪影(见图5(g))。相比之下，本文方法可以有效地恢复无伪影的阴影区域的照明，如图5(h)所示，与真实图像相似。

图5. 视觉比较结果

说明：(a) 输入图像；(b) Jung；(c) DSC；(d) Fu；(e) DHAN；(f) CANet；(g) BEDSR-Net；(h) 本文BGShadowNet；(i) GT

为了进一步验证本文方法的鲁棒性和泛化能力，图6给出了其他一些文档图像的阴影去除结果，其中包含一些具有挑战性的情况，如阴影较重和阴影区域光照不一致。显然，用本文的方法恢复的结果看起来更自然，几乎没有人为影响。

图6. 其他图像的视觉比较结果 说明：(a) 输入图像；(b) Jung；(c) DSC；(d) DHAN；(e) Fu；(f) BEDSR-Net；(g) CANet；(h) BMNet；(i) 本文BGShadowNet

总结与展望

本文提出了一个CBENet来估计阴影图像的空间变化背景，这可以促进所提出的BGShadowNet进行文档阴影去除。本文的BGShadowNet首先使用背景约束解码器预测粗阴影去除结果。然后，本文将BAModule和DEModule嵌入到编码器-解码器网络中，以改善粗糙结果，并产生具有一致外观和丰富细节纹理的最终无阴影结果。将本文的BGShadowNet与最先进的方法进行比较的实验证明了它的优越性。

昇思MindSpore是一个容易开发、高效执行并且支持全场景部署的AI框架，其API友好，调试难度较低，计算效率、数据预处理效率和分布式训练效率都较高，并且支持云、边缘以及端侧场景。基于此，昇思MindSpore在未来将会得到更大程度的应用。希望所有昇思MindSpore开发者积极参与到社区建设中，共同创造更多创新解决方案，通过开源协作推动技术进步。

昇思MindSpore

关注

20
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
揭秘色彩魔法：智能感知背景下的文档图像阴影消除

相比之下，本文方法可以有效地恢复无伪影的阴影区域的照明，如图5(h)所示，与真实图像相似。为了验证本文方法的有效性，将本文的结果与各种最先进的阴影去除方法进行了比较，包括三种文档图像阴影去除方法(Bako、Jung和BEDSR-Net)和六种自然图像阴影去除方法(ST-CGAN、DSC、DHAN、Fu、CANet、SG-ShadowNet和BMNet)。请注意，该背景是无阴影的，这可以帮助BGShadowNet学习更多的无阴影功能，有助于去除阴影，同时更好地避免图像中的照明或彩色伪影(见图2(e))。
复制链接

扫一扫