论文:Document Enhancement using Visibility Detection
cvpr2018论文。论文主要基于3d点云的方法,对文档图片进行去阴影操作,进而提升检测和识别。
整体流程:
首先作者将一副图像想象成具有哦3d信息的点云。像素值的大小表示3d表面的凹凸。白色背景表示为高原,污迹,阴影表示为火山地带,黑色的字表示为峡谷。由b中绿色的点对整个3d点云进行观察,产生c中的可见性检测图。阴影上有好多红色点的可见像素,字体上基本没有红色的点,然后对阴影进去除,得到最终去阴影后的d图。
可见性检测的2种方法:
HPR:检测可见的点的方法
TPO:检测遮挡的点的方法
假设红色点为视点,蓝色为可见的点,绿色为遮挡的点
图像二值化流程:
首先对于输入图像a,基于3d点云的方法可以获得b这种带红色可见阴影点的结果。对b中的红色阴影点做图片平均滑动,类似于均值滤波操作,可以得到c图背景图片。然后通过a图减去c图,就获得了去除背景阴影的低光图d。由于去掉了阴影,因此用d图做二值化操作,可以得到比直接用原始a图做二值化操作更好的结果。最终二值化结果f由于传统的e。
A为原始图像的直方图分布,b为经过处理得到的低光图。从两者的直方图分布可以看出,前景蓝色和悲剧红色可以更好的分开,具有更好的分界岭。
总结:
- 论文的思想非常novel,将平面的图片想象为3d的点云,并提出行之有效的方法来去掉背景阴影。
- 相比ocropy中去背景的方法。两者同为传统方法。Ocropy中基于背景像素为滤波中滑动窗口中70%位置的像素,而本文则通过可见性来检测背景像素。
- 相比Hybrid Deep Architecture中基于笔画识别+GMM,再去处背景的方法,本文的思想更好
- 相比ocropus中基于神经网络2dlstm的方法,也许结果上未必有神经网络的好。神经网络的方法也许才是当前的主流,不管处理过程,速度,效果上都占有优势。