Real-Time Scene Text Detection with Differentiable Binarization

开始学AI

已于 2022-05-23 11:05:34 修改

阅读量602

点赞数 2

文章标签：计算机视觉人工智能

于 2022-05-23 11:05:31 首次发布

本文链接：https://blog.csdn.net/qq_41964545/article/details/124921359

版权

摘要

最近，基于分割的方法在场景文本检测中非常流行，因为分割结果可以更准确地描述各种形状的场景文本，例如曲线文本。然而，二值化的后处理对于基于分割的检测是必不可少的，其将分割方法产生的概率图转换为文本的边界框/区域。在本文中，我们提出了一个名为可微二值化（DB）的模块，它可以在分割网络中形成二值化过程。优化与DB模块一起，分割网络可以自适应地设置二值化阈值，这不仅简化了后处理，而且提高了文本检测的性能。基于简单的分割网络，我们验证了DB在五个基准数据集上的性能改进，在检测精度和速度方面始终如一地实现了最先进的结果。特别是，使用轻型主干，DB的性能改进非常重要，因此我们可以在检测精度和效率之间寻找理想的折衷方案。具体而言，使用ResNet-18骨干，我们的探测器在MSRA-TD500数据集上实现了82.8的F值，运行速度为62 FPS。

引言

近年来，场景图像中的文本阅读由于其在图像/视频理解、视觉搜索、自动驾驶、盲人辅助等方面的广泛应用而成为一个活跃的研究领域。
作为场景文本阅读的关键组成部分，场景文本检测的目标是定位每个文本实例的边界框或区域，因为场景文本通常具有不同的尺度和形状，包括水平、多方向和弯曲文本。基于分割的场景文本检测由于能够描述各种形状的文本，得益于其在像素级的预测结果，近年来引起了人们的广泛关注。然而，大多数基于分割的方法需要复杂的用于将像素级预测结果分组到检测到的文本实例中的后处理导致推理过程中的相当大的时间成本。以最近两种最新的场景文本检测方法为例：PSENet(Wang等人，2019a)提出了渐进尺度扩展的后处理方法来提高检测精度；像素嵌入(Tian et al.。2019)用于根据分割结果对像素进行聚类，这需要计算像素之间的特征距离。

大多数现有的检测方法使用类似于图2所示的后处理流水线(跟随蓝色箭头)：首先，它们设置一个固定的阈值，用于将分割网络产生的概率图转换为二值图像；然后，使用一些启发式技术，如像素聚类，将像素分组为文本实例。或者，我们的流水线(跟随图2中的红色箭头)旨在将二值化操作插入到分割网络中以进行联合优化。通过这种方式，可以自适应地预测图像每个位置的阈值，从而能够充分区分像素与前景和背景。然而，标准的二值化函数是不可微的，我们提出了一种用于二值化的近似函数，称为可微二值化(DB)，它在训练时是完全可微的。

本文的主要贡献是提出了可微的DB模块，使得二值化过程在CNN中端到端可训练。通过将简单的语义分割网络与所提出的DB模块相结合，提出了一种健壮、快速的场景文本检测器。从使用DB模块的性能评估来看，我们发现我们的检测器与以前最先进的基于分割的方法相比具有几个显著的优势。

我们的方法在五个场景文本的基准数据集上取得了一致较好的性能，包括水平文本、多方向文本和弯曲文本。
我们的方法比以前的主要方法执行得更快，因为DB可以提供高度健壮的二值化映射，大大简化了后处理。
DB在使用轻量级主干时工作得很好，这显著提高了与ResNet-18主干的检测性能。
由于可以在不牺牲性能的情况下在推理阶段删除DB，因此测试不需要额外的内存/时间成本。

最近的场景文本检测方法可以大致分为两类：基于回归的方法和基于分割的方法。

方法

架构

我们提出的方法的体系结构如图3所示。首先，将输入图像送入特征金字塔主干。其次，对金字塔特征进行等尺度上采样并级联生成特征F，然后利用特征F预测概率图(P)和阈值图(T)。在训练期间，对概率图、阈值图和近似二进制图进行监督，其中概率图和近似二进制图共享相同的监督。在推理阶段，包围盒可以很容易地从近似的二值图或概率图中通过盒公式模块获得。

标签生成

概率图的标签生成受到PSENet(Wang等人)的启发。2019a)。给定一个文本图像，其文本区域的每个多边形由一组段描述：

$G=\left\{S_{k}\right\}_{k=1}^{n}$

N是顶点的数量，在不同的数据集中可能是不同的，例如，对于ICDAR 2015数据集，为4(Karatzas等人。2015)和CTW1500数据集为16(Liu等人。2019a)。然后，通过使用Vatti裁剪算法(VATI 1992)将多边形G收缩到Gs来产生正区域。收缩的偏移D是根据原始多边形的周长L和面积A计算的：

$D=\frac{A\left(1-r^{2}\right)}{L}$

r是收缩比，设置为0.4。

使用类似的过程，我们可以为阈值映射生成标签。首先，将文本多边形G以相同的偏移量D扩展到Gd。我们将Gs和Gd之间的距离作为文本区域的边界，通过计算到G中最近段的距离来生成阈值图的标签。

实验

开始学AI

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Real-Time Scene Text Detection with Differentiable Binarization

摘要最近，基于分割的方法在场景文本检测中非常流行，因为分割结果可以更准确地描述各种形状的场景文本，例如曲线文本。然而，二值化的后处理对于基于分割的检测是必不可少的，其将分割方法产生的概率图转换为文本的边界框/区域。在本文中，我们提出了一个名为可微二值化（DB）的模块，它可以在分割网络中形成二值化过程。优化与DB模块一起，分割网络可以自适应地设置二值化阈值，这不仅简化了后处理，而且提高了文本检测的性能。基于简单的分割网络，我们验证了DB在五个基准数据集上的性能改进，在检测精度和速度方面始终如一地实现了最先
复制链接

扫一扫