AAAI2020: Real-time Scene Text Detection with Differentiable Binarization

Highlight_Jin

已于 2022-08-13 21:37:11 修改

阅读量901

点赞数

分类专栏： # 目标检测文章标签：计算机视觉

于 2022-06-30 16:16:51 首次发布

本文链接：https://blog.csdn.net/Highlight_Jin/article/details/125218674

版权

目标检测专栏收录该内容

29 篇文章 3 订阅

订阅专栏

AAAI2020: Real-time Scene Text Detection with Differentiable Binarization

在这里插入图片描述
概率图：是原始文本mask收缩后的图
阈值图：是文本边界向内、向外扩展后，得到的差集区域，更好的描述文本的边界。

1 Introduction

近年来，由于图像/视频理解、视觉搜索、自动驾驶和盲人辅助等广泛的实际应用，阅读场景图像中的文本已经成为一个活跃的研究领域。作为场景文本阅读的一个关键组成部分，旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务，因为场景文本通常具有不同的尺度和形状，包括水平、多方向和弯曲的文本。基于分割的场景文本检测最近吸引了很多人的注意，因为它可以描述各种形状的文本，受益于其在像素级的预测结果。然而，大多数基于分割的方法需要进行复杂的后处理，将像素级的预测结果分组为检测到的文本实例，导致推理过程中的时间成本相当高。以最近两种最先进的场景文本检测方法为例。PSENet（Wang等人，2019a）提出了渐进式比例扩展的后处理方法，以提高检测精度；Pixel embedding（Tian等人，2019）用于根据分割结果对像素进行聚类，需要计算像素间的特征距离。

大多数现有的检测方法使用类似的后处理管道，如图2所示（按照蓝色箭头所示）。首先，他们设定一个固定的阈值，将分割网络产生的概率图转换为二进制图像；然后，使用一些启发式技术，如像素聚类，将像素分组为文本实例。另外，我们的管道（按照图2中的红色箭头）旨在将二值化操作插入到分割网络中进行联合优化。通过这种方式，可以自适应地预测图像每一个地方的阈值，这可以完全区分出前景和背景的像素。然而，标准的二值化函数不是可分的，我们提出了一个近似的二值化函数，称为可分二值化（DB），在与分割网络一起训练时，它是完全可分的。

本文的主要贡献是提出了可区分的DB模块，这使得二值化的过程在CNN中可以进行端到端的训练。通过结合一个简单的语义分割网络和所提出的DB模块，我们提出了一个强大而快速的场景文本检测器。从使用DB模块的性能评估中，我们发现我们的检测器比以前最先进的基于分割的方法有几个突出的优势。

我们的方法在五个场景文本的基准数据集上取得了持续更好的性能，包括水平、多方向和弯曲的文本。
我们的方法比以前的领先方法表现得更快，因为DB可以提供一个高度稳健的二值化图，大大简化了后处理过程。
DB在使用轻量级骨干时效果相当好，这大大增强了ResNet-18骨干的检测性能。
由于DB可以在推理阶段被移除而不影响性能，因此在测试中没有额外的内存/时间成本。

2 Related work

3 Methodology

我们提出的方法的结构如图3所示。首先，输入图像被送入一个特征金字塔骨架。其次，金字塔特征被上采样到相同的比例并级联产生特征F。然后，特征F被用来预测概率图（P）和阈值图（T）。之后，近似的二元图（ˆB）由P和F计算。在训练期，监督被应用于概率图、阈值图和近似二元图，其中概率图和近似二元图共享相同的监督。在推理阶段，边界盒可以通过盒形模块从近似二元图或概率图中轻松获得。

3.1Binarization

Standard binarization 给定一个由分割网络产生的概率图P∈RH×W，其中H和W表示图的高度和宽度，必须将其转换成二进制图P∈RH×W，其中值为1的像素被认为是有效的文本区域。通常情况下，这个二进制化过程可以描述如下：
在这里插入图片描述
其中t是预定的阈值，（i，j）表示map中的坐标点。

Differentiable binarization 公式1中描述的标准二值化是不可分的。因此，在训练期间，它不能与分割网络一起被优化。为了解决这个问题，我们建议用一个近似的阶梯函数来进行二值化： ˆBi,j = 1 1 + e-k(Pi,j-Ti,j) (2) 其中ˆB是近似的二值图；T是从网络中学习的自适应阈值图；k表示放大系数。这个近似二值化函数的行为类似于标准二值化函数（见图4），但它是可微分的，因此可以在训练期间与分割网络一起优化。具有自适应阈值的可分化二值化不仅有助于将文本区域与背景区分开来，还能将紧密结合的文本实例分开。一些例子在图7中得到说明。

3.2 Adaptive threshold

3.3 Deformable convolution

3.4 Label generation

概率图的标签生成受到PSENet（Wang等人，2019a）的启发。给定一个文本图像，其文本区域的每个多边形由一组片段描述。G={Sk}nk=1 （5）n是顶点的数量，在不同的数据集中可能不同，例如，ICDAR 2015数据集（Karatzas等人，2015）为4，CTW1500数据集（Liu等人，2019a）为16。然后通过使用V atti clipping算法（V ati 1992）将多边形G缩小到Gs来生成正面积。缩减的偏移量D是由原始多边形的周长L和面积A计算出来的。D = A(1 - r2) L (6) 其中r是收缩率，根据经验设定为0.4。

通过一个类似的程序，我们可以为阈值图生成标签。首先，文本多边形G以相同的偏移量D被扩张到Gd。我们认为Gs和Gd之间的间隙是文本区域的边界，在这里，阈值图的标签可以通过计算与G中最近的片段的距离来生成。