【读点论文】Real-time Scene Text Detection with Differentiable Binarization，可微分二值化助力文字检测

最新推荐文章于 2024-12-02 13:55:58 发布

羞儿

最新推荐文章于 2024-12-02 13:55:58 发布

阅读量911

点赞数 29

文章标签： OCR 文本检测

本文链接：https://blog.csdn.net/weixin_43424450/article/details/136153603

版权

Real-time Scene Text Detection with Differentiable Binarization

Abstract

近年来，基于分割的方法在场景文本检测中非常流行，因为分割结果可以更准确地描述各种形状的场景文本，如曲线文本。然而，二值化的后处理对于基于分割的检测至关重要，它将分割方法产生的概率图转换为文本的边界框/区域。本文提出了一个可微分二值化(DB)模块，可以在分割网络中进行二值化处理。经过DB模块的优化，分割网络可以自适应地设置二值化阈值，不仅简化了后处理，而且提高了文本检测的性能。基于一个简单的分割网络，我们在五个基准数据集上验证了DB的性能改进，在检测精度和速度方面始终达到了最先进的结果。特别是，对于轻量级主干，DB的性能改进是显着的，因此我们可以在检测精度和效率之间寻找理想的权衡。具体来说，在ResNet-18的主干上，我们的检测器在MSRA-TD500数据集上实现了82.8的 F-measure 值，以62 FPS运行。代码可从https://github.com/MhLiao/DB获得。
论文地址：[1911.08947] Real-time Scene Text Detection with Differentiable Binarization (arxiv.org)， Accepted to AAAI 2020

Introduction

近年来，场景图像中的文本读取由于在图像/视频理解、视觉搜索、自动驾驶、盲辅助等方面有着广泛的实际应用，成为一个活跃的研究领域。作为场景文本读取的关键组成部分，场景文本检测的目标是定位每个文本实例的边界框或区域，这仍然是一项具有挑战性的任务，因为场景文本通常具有各种尺度和形状，包括水平文本，多向文本和弯曲文本。基于分割的场景文本检测由于能够对各种形状的文本进行描述，并受益于其在像素级的预测结果，近年来受到了广泛的关注。然而，大多数基于分割的方法需要进行复杂的后处理，以便将像素级预测结果分组到检测到的文本实例中，从而导致推理过程中的大量时间成本。以最近两种最先进的场景文本检测方法为例: PSENet 提出了渐进式尺度扩展的后处理，以提高检测精度;Tian 中的像素嵌入基于分割结果对像素进行聚类，需要计算像素之间的特征距离。
现有的检测方法大多采用类似的后处理流程，如下图所示(蓝色箭头下方):首先设置一个固定的阈值，将分割网络产生的概率图转换为二值图像;然后，使用一些启发式技术，如像素聚类，将像素分组到文本实例中。或者，我们的管道(如下图中红色箭头所示)旨在将二值化操作插入到分割网络中进行联合优化。这样可以自适应地预测图像中每个位置的阈值，可以充分区分前景和背景像素。然而，标准二值化函数是不可微的，我们提出了一个近似的二值化函数，称为可微二值化(DB)，当与分割网络一起训练时，它是完全可微的。
- 传统管道(蓝色流)和我们的管道(红色流)。虚线箭头是唯一的推理操作符;实箭头表示训练和推理中的可微算子。
- 文中指出传统的文本检测算法主要是图中蓝色线，处理流程如下：首先，通过设置一个固定阈值将分割网络训练得到的概率图(segmentation map)转化为二值图(binarization map);然后，使用一些启发式技术(例如像素聚类)将像素分组为文本实例。
- DBNet使用红色线，思路：通过网络去预测图片每个位置处的阈值，而不是采用一个固定的值，这样就可以很好将背景与前景分离出来，但是这样的操作会给训练带来梯度不可微的情况，对此对于二值化提出了一个叫做Differentiable Binarization来解决不可微的问题。
本文的主要贡献是提出了可微的DB模块，使得CNN的二值化过程端到端可训练。将简单的语义分割网络与DB模块相结合，提出了一种鲁棒、快速的场景文本检测器。从使用DB模块的性能评估中观察到，我们发现我们的检测器比以前最先进的基于分段的方法有几个突出的优势。
- 该方法在水平文本、多方向文本和弯曲文本5个基准数据集上均取得了较好的性能。
- 我们的方法比以前的主要方法执行得快得多，因为DB可以提供高度鲁棒的二值化映射，大大简化了后处理。
- 在使用轻量级骨干网时，DB工作得很好，这大大提高了使用ResNet-18骨干网的检测性能。
- 由于可以在推理阶段删除DB而不牺牲性能，因此测试不需要额外的内存/时间成本。

Related Work

目前的场景文本检测方法大致可以分为两类:基于回归的方法和基于分割的方法。
基于回归的方法是直接对文本实例的边界框进行回归的一系列模型。TextBoxes基于SSD修改了锚点和卷积核的规模用于文本检测。TextBoxes++ 和DMPNet 应用四边形回归检测多方向文本。He 提出了一种注意力机制来粗略识别文本区域。RRD 通过使用旋转不变特征进行分类和旋转敏感特征进行回归来解耦分类和回归，从而在多方向和长文本实例上获得更好的效果。EAST 和 DeepReg 是无锚方法，它对多方向文本实例应用像素级回归。SegLink 回归了段边界框并预测了它们的连接，以处理长文本实例。DeRPN 提出了一种维度分解区域建议网络来处理场景文本检测中的尺度问题。基于回归的方法通常采用简单的后处理算法(例如非最大值抑制)。然而，它们中的大多数都局限于表示不规则形状(如弯曲形状)的精确边界框。
基于分割的方法通常结合像素级预测和后处理算法来获得边界框。通过语义分割和基于 mser 的算法检测多方向文本。文本边界用于分割文本实例，Mask TextSpotter ;Liao等人采用基于Mask R-CNN的实例分割方式检测任意形状的文本实例。PSENet通过分割不同尺度核的文本实例，提出了逐级尺度扩展。SAE 提出了像素嵌入从分割结果中聚类像素。PSENet 和SAE 对分割结果提出了新的后处理算法，导致推理速度降低。相反，我们的方法专注于在不损失推理速度的情况下，通过将二值化过程纳入训练周期来改善分割结果。
快速场景文本检测方法注重准确率和推理速度。TextBoxes 、TextBoxes++ 、SegLink 和 RRD 通过遵循 SSD 的检测架构实现了快速文本检测。EAST 提出应用 PVANet 来提高其速度。它们大多不能处理不规则形状的文本实例，如弯曲形状。与以往的快速场景文本检测器相比，我们的方法不仅运行速度更快，而且可以检测任意形状的文本实例。
在基于图像分割的文本检测算法中，最后通常需要二值化probability map来得到文本域和背景域，通常是设置一个先验阈值，大于这个阈值认为是文本域，小于这个阈值是背景，最后通过一些后处理算法来拿到结果。本文将二值化放到网络的训练过程，于是有了threshold map，用于二值化probability map。但二值化是不可微的，所以作者提出了一个与二值化相近的函数。

Methodology

我们提出的方法的架构如下图所示。首先，将输入图像送入特征金字塔主干;其次，将金字塔特征上采样到相同的尺度并级联得到特征F，然后用特征F预测概率图§和阈值图(T)，然后由P和F计算近似二值图( $\hat B$ )。在训练期间，对概率图、阈值图和近似二值图应用监督，其中概率图和近似二值图共享相同的监督。在推理过程中，边界框可以很容易地从近似二值映射或概率映射中得到。
- 我们提出的方法的体系结构，其中“pred”由一个3×3卷积算子和两个stride为2的反卷积算子组成。“1/2”，“1/4”，……“1/32”表示与输入图像的比例比。
- 网络输入假设为w*h*3。网络整体结构采用FPN的设计思想，进行了5次下采样，3次上采样操作。最终的输出特征图大小为原图的1/4。网络头部部分，分别引出2个分支。一个负责预测概率图（probability map，(w/4)*(h/4)*1），代销为，另一个负责预测阈值图（threshold map，(w/4)*(h/4)*1）。概率图经过阈值图处理，进行二值化后得到二值图（approximate binary map，(w/4)*(h/4)*1）。最后经过后处理操作得到最终文字的边。后处理过程如下，
  - 使用固定阈值0.2对概率图或者二值图进行二值化操作，得到二值图
  - 从二值图中获得连通域区域
  - 将连通域区域向外膨胀 D’ 得到真实的多边形轮廓
- 一个标准的基于某backbone的FPN结构；FPN结构之后接两个head分别输出probability map和threshold map，同时图片size从1/4(H, W) 上采样回原图大小；最后两个map通过DB运算得到最后的binary map。
- 标签生成。文本多边形的标注用红线表示。收缩多边形和扩张多边形分别用蓝线和绿线表示。label主要是两部分，probability map和threshold map；binary map和probability map共用一个ground truth。
- probability map：参考了PSENet的label方式。并不是简单将标注的文本域置为1，而是将文本域的"shrink"置为 1，相当于一个小的"kernel"，和PSENet一样，这样可以有效避免多行文本被检测成一行。
- threshold map：在生成probability map标注时，文本域的"shrink"称为 $G_s$ ，这里继续生成文本域的"dilated"成为 $G_d$ ，于是 $G_s$ 和 $G_d$ 之间的gap称之为文本域的边界域，threshold map就由边界域中的点到真实边界线 G 的距离决定。
首先，图像输入特征提取主干，提取特征；其次，特征金字塔上采样到相同的尺寸，并进行特征级联得到特征F；然后，特征F用于预测概率图（probability map P）和阈值图(threshold map T); 最后，通过P和F计算近似二值图（approximate binary map B）。在训练期间对P，T，B进行监督训练，P和B是用的相同的监督信号(label)。在推理时，只需要P或B就可以得到文本框。网络输出：
- probability map, w*h*1 , 代表像素点是文本的概率
- threshhold map, w*h*1, 每个像素点的阈值
- binary map, w*h*1, 由1,2计算得到，计算公式为DB公式

Binarization

给定由分割网络生成的概率图 $\in \R^{H×W}$ ，其中 H 和 W 表示图的高度和宽度，将其转换为二值图 $P\in \R^{H×W}$ 是必要的，其中值为 1 的像素被认为是有效的文本区域。通常，这个二值化过程可以描述如下:
- $B_{i,j} = \begin{cases} 1 &{if~P_{i,j}>=t}\\ 0 &\text{otherwise}\\ \end{cases}（1）$
- 式中 t 为预定义阈值， $(i; j)$ 表示特征图中的坐标点。
可微二值化公式 1 中描述的标准二值化是不可微的。因此，在训练阶段，它不能随分割网络一起进行优化。为了解决这个问题，我们提出用近似阶跃函数进行二值化:
- $\hat B_{i,j}=\frac{1}{1+e^{-k(P_{i,j}-T_{i,j})}}$
- 其中 $\hat B$ 为近似二进制映射; T是从网络中学习到的自适应阈值映射 ;K表示放大因子。根据经验，K设为50。该近似二值化函数的行为与标准二值化函数类似(见下图)，但它是可微的，因此可以在训练期间随着分割网络进行优化。带有自适应阈值的可微分二值化不仅可以区分文本区域和背景，还可以分离紧密连接的文本实例。
- 可微二值化及其导数的说明。(a)标准二值化(SB)和可微二值化(DB)的数值比较。(b) l+的导数。© l−的导数。
DB提高性能的原因可以用梯度的反向传播来解释。我们以二值交叉熵损失为例。定义 $=\frac 1 {1+e^{−kx}}$ 作为DB函数，其中 $x = P_{i;j}−T_{i;j}$ 。则正标签损失 $l_+$ ，负标签损失 $l _-$ 分别为:
- $l_+=-log\frac{1}{1+e^{-kx}}\\ l_-=-log(1-\frac{1}{1+e^{-kx}})$
- 我们可以很容易地用链式法则计算损失的微分:
- l+和l−的导数如上图所示。从微分可以看出:(1)梯度被放大因子k增强;(2)在大多数错误预测区域，梯度的放大是显著的(L+的x < 0;对于L−，x > 0)，从而有利于优化并有助于产生更有特色的预测。此外，当 $x = P_{i;j}−T_{i;j}$ 时，P 的梯度被 T 影响并在前景和背景之间重新缩放。

Adaptive threshold

下图中的阈值图与Xue的文本边界图从外观上相似。然而，阈值图的动机和用途与文本边界图不同。
- 比较了最近几种场景文本检测方法在 MSRA-TD500 数据集上的准确率和速度。我们的方法在有效性和效率之间取得了理想的平衡。
有/无监督的阈值图如下图所示。即使没有阈值地图的监督，阈值地图也会突出显示文本边界区域。这表明类边界阈值映射有利于最终结果。因此，我们在阈值图上应用类边界监督以获得更好的指导。在实验部分讨论了关于监督的消融研究。使用Xue中的文本边界图来分割文本实例，而我们的阈值图作为二值化的阈值。
- 有/没有监督的阈值图。(a)输入图像。(b)概率图。©没有监督的阈值图。(d)有监督的阈值图。

Deformable convolution

可变形卷积可以为模型提供一个灵活的接受场，这对极端宽高比的文本实例特别有益。在Zhu之后，在ResNet-18或ResNet-50主干的conv3、conv4和conv5阶段的所有3 × 3卷积层中应用调制的可变形卷积。

Label generation

概率图的标签生成受到 PSENet 的启发。给定一个文本图像，其文本区域的每个多边形由一组片段描述:
- $G=\{S_k\}^n_{k=1},(5)$
- n为顶点数，不同数据集的顶点数可能不同，例如 ICDAR 2015数据集标注顶点数为 4 ， CTW1500数据集为标注顶点数16 。然后使用 Vatti 裁剪算法将多边形G缩小为G来生成正区域。从原多边形的周长 L 和面积A计算收缩的偏移量D:
- $D=\frac{A(1-r^2)}{L}$
- 其中 r 为收缩比，经验设置为0.4。
通过类似的过程，我们可以为阈值映射生成标签。首先，将文本多边形 G 以相同的偏移量 D 扩展到 $G_d$ 。我们将 $G_s$ 和 $G_d$ 之间的间隙作为文本区域的边界，其中阈值图的标签可以通过计算到G中最近的段的距离来生成。

Optimization

损失函数 L 可以表示为概率映射 $L_s$ 的损失、二值映射 $L_b$ 的损失、阈值映射 $L_t$ 的损失的加权和:
- $L=L_s+\alpha*L_b+\beta*L_t$
- 其中 Ls 是概率图的损失，Lb 是二值图的损失。根据损耗的数值，α和β分别设为1.0和10。
我们对 $L_s$ 和 $L_b$ 应用二进制交叉熵(BCE)损失。为了克服正负数量的不平衡，通过对硬负采样，在 BCE 损失中使用硬负挖掘。
- $L_s=L_b=\sum_{i\in S_l}y_ilog_{x_i}+(1-y_i)log(1-x_i)$
- $S_l$ 是阳性和阴性比例为1:3的抽样集。
$L_t$ 被计算为扩展文本多边形 $G_d$ 内预测和标签之间 $L_1$ 距离的和:
$L_t=\sum_{i\in R_d}|y^*_i-x^*_i|$
其中， $R_d$ 是扩展多边形 $G_d$ 内像素的一组索引; $y^*$ 是阈值映射的标签。
在推理阶段，我们既可以使用概率图，也可以使用近似二值图来生成文本边界框，两者产生的结果几乎相同。为了提高效率，我们使用概率映射，这样阈值分支就可以被移除。箱体形成过程包括三个步骤:(1)首先将概率图/近似二值图以恒定阈值(0.2)二值化，得到二值图;(2)从二值映射中获得连通区域(缩小的文本区域);(3)采用Vatti 裁剪算法，用偏移量 D’ 对收缩区域进行扩展。D’ 计算为
- $D'=\frac{A'*r'}{L'}$
- 式中 A’ 为收缩多边形的面积;l’ 是收缩多边形的周长;经验地将 r’ 设为1.5。

Experiments

Datasets

SynthText 是一个由80万张图像组成的合成数据集。这些图像是由 8k 背景图像合成的。这个数据集只用于预训练我们的模型。
MLT-2017数据集是一个多语言数据集。它包括9种语言，代表6种不同的脚本。该数据集中有7200张训练图像，1800张验证图像和9000张测试图像。我们在微调周期内同时使用训练集和验证集。
ICDAR 2015数据集由1000张训练图像和500张测试图像组成，这些图像由谷歌眼镜捕获，分辨率为720 × 1280。文本实例在单词级别被标记。
MSRA-TD500数据集是一个包含英语和中文的多语言数据集。有300个训练图像和200个测试图像。文本实例在文本行级别被标记。沿用之前的方法，我们从HUSTTR400中添加了额外的400张训练图像。
CTW1500 是一个专注于曲线文本的数据集。它由1000张训练图像和500张测试图像组成。文本实例在文本行级别进行标注。
Total-Text 是一个包含各种形状的文本的数据集，包括水平、多方向和弯曲的文本。它们是 1255 张训练图像和 300 张测试图像。文本实例在单词级别被标记。

Implementation details

对于所有模型，我们首先使用 SynthText 数据集进行100k次迭代的预训练。然后，我们在相应的实际数据集上对模型进行了 1200 个epoch的微调。训练批大小设置为16。我们遵循多学习率策略，其中当前迭代的学习率等于初始学习率乘以 $\frac{iter}{max-iter})^{power}$ ，其中初始学习率设置为0.007，power为0.9。我们使用0.0001的权重衰减和0.9的动量。max-iter表示最大迭代，这取决于最大epoch。
训练数据的数据增强包括:(1)随机旋转，角度范围为(−10◦;10◦);(2)随机裁剪;(3)随机翻转。所有经过处理的图像都被重新调整为640×640，以提高训练效率。
在推理期间，我们保持测试图像的长宽比，并通过为每个数据集设置合适的高度来重新调整输入图像的大小。在单个线程中使用单个1080ti GPU，批量大小为1的情况下测试推理速度。推理时间开销包括模型前向时间开销和后处理时间开销。后处理时间成本约为推理时间的30%。

Ablation study

我们对 MSRA-TD500数据集和CTW1500数据集进行了消融研究，以证明我们提出的可微二值化、可变形卷积和不同主干的有效性。详细实验结果见下表。
- 不同设置下的检测结果。“DConv”表示可变形卷积。“P”、“R”和“F”分别表示精度、召回率和F测量值。
Differentiable binarization ：在上表中，我们可以看到我们提出的DB在两个数据集上显著提高了ResNet-18和ResNet-50的性能。对于ResNet-18骨干网，DB 在 MSRA-TD500数据集和CTW1500数据集上的F-measure性能分别提高了3.7%和4.9%。对于ResNet-50骨干网，DB带来了 3.2%(在MSRA-TD500数据集上)和4.6%(在CTW1500数据集上)的改进。此外，由于在推理期间可以去除DB，因此速度与没有DB的速度相同。
Deformable convolution : 如上表所示，可变形卷积还可以带来1.5−5.0的性能增益，因为它为骨干提供了一个灵活的接受场，而额外的时间成本很小。对于 MSRA-TD500数据集，可变形卷积将F-measure增加了1.5%(使用ResNet-18)和5.0%(使用ResNet-50)。对于CTW1500数据集，可变形卷积实现了 3.6% (使用ResNet-18)和4.9%(使用ResNet-50)的改进。
Supervision of threshold map : 虽然有和没有监督的阈值图在外观上是相似的，但是监督可以带来性能的提升。如下表所示，在MLT-2017数据集上，监督提高了0.7% (ResNet-18)和2.6% (ResNet-50)。
- 监督阈值图对 MLT2017数据集的影响。“Thr-Sup”表示对阈值图进行监管。
Backbone: 采用ResNet-50骨干网的检测器性能优于ResNet-18，但运行速度较慢。具体来说，最好的ResNet-50模型在MSRA-TD500数据集上的性能比最好的ResNet-18模型高出2.1%，在CTW1500数据集上的性能高出2.4%，时间成本大约是原来的两倍。

Comparisons with previous methods

我们在五个标准基准上将我们提出的方法与以前的方法进行了比较，包括两个弯曲文本基准，一个多方向文本基准和两个长文本行多语言基准。一些定性结果如下图所示。
- 对各种形状的文本实例的一些可视化结果，包括弯曲文本、多向文本、垂直文本和长文本行。对于每个单元，右上方是阈值图;右下角是概率图。
Curved text detection ：我们在两个曲线文本基准(Total-Text和CTW1500)上证明了我们的方法的形状鲁棒性。如表3和表4所示，我们的方法在精度和速度上都达到了最先进的性能。具体来说，“DB-ResNet-50”在TotalText和CTW1500数据集上的性能比以前最先进的方法分别高出1.1%和1.2%。“DB-ResNet-50”的运行速度比以前所有的方法都快，并且可以通过使用ResNet-18骨干网进一步提高速度，性能下降很小。与最近基于分段的检测器相比，“DB-ResNet-50(800)”的速度是8.2倍，“DBResNet-18(800)”的速度是12.8倍。
- 全文数据集上的检测结果。括号中的值表示输入图像的高度。“*” 表示多尺度测试。“MTS” 和 “PSE” 是Mask TextSpotter和PSENet的缩写。
- CTW1500的检测结果。带“*”的方法来源于(Curved scene text detection via transverse and longitudinal sequence connection)。括号中的值表示输入图像的高度。
Multi-oriented text detection: ICDAR 2015数据集是一个多向的文本数据集，其中包含大量小而低分辨率的文本实例。在下表中，我们可以看到“DB-ResNet-50(1152)”在精度上达到了最先进的性能。与之前最快的方法(EAST: an efficient and accurate scene text detector)相比，“DB-ResNet-50(736)”的准确率高出7.2%，运行速度提高了一倍。对于“dresnet -18(736)”，当ResNet-18应用于骨干网时，速度可以达到48 fps, f-measure为82.3。
- ICDAR 2015数据集的检测结果。括号中的值表示输入图像的高度。“TB”和“PSE”是TextBoxes++和PSENet的缩写。
Multi-language text detection : 本方法对多语言文本检测具有鲁棒性。如表6和表7所示，“DB-ResNet-50”在精度和速度上都优于以往的方法。在精度方面，“DB-ResNet-50”在MSRA-TD500和MLT-2017数据集上分别比之前最先进的方法高出1.9%和3.8%。在速度方面，“DB-ResNet-50”在MSRA-TD500数据集上比之前最快的方法 PRD 快3.2倍。与以前最先进的方法相比，“DBResNet-18(736)”具有轻量级的主干，达到了相对的准确性(82.8 vs 83.0)，在MSRA-TD500上以62帧/秒的速度运行，比之前最快的方法 PRD 快6.2倍。通过减小输入大小，速度可以进一步加快到82 FPS(“ResNet-18(512)”)。
- MSRA-TD500数据集上的检测结果。括号中的值表示输入图像的高度。
- MLT-2017数据集上的检测结果。带“*”的方法来自(Multioriented scene text detection via corner localization and region segmentation)。在我们的方法中，MLT-2017数据集中的图像被重新调整为768 × 1024。PSE是PSENet的缩写。

Limitation

我们的方法的一个限制是它不能处理“文本中文本”的情况，这意味着一个文本实例在另一个文本实例中。虽然在文本实例不在另一个文本实例的中心区域的情况下，收缩文本区域是有帮助的，但当文本实例恰好位于另一个文本实例的中心区域时，它就失败了。这是基于分割的场景文本检测器的常见限制。

Conclusion

在本文中，我们提出了一种新的框架来检测任意形状的场景文本，其中包括在分割网络中提出的可微分二值化过程(DB)。实验已经验证了我们的方法(ResNet-50主干)在速度和准确性方面始终优于五个标准场景文本基准的最先进方法。特别是，即使使用轻量级主干(ResNet-18)，我们的方法也可以在所有测试数据集上获得具有竞争力的性能，并且具有实时推理速度。在未来，我们有兴趣扩展我们的方法来进行端到端文本识别。