AAAI2020: Real-time Scene Text Detection with Differentiable Binarization

AAAI2020: Real-time Scene Text Detection with Differentiable Binarization

在这里插入图片描述
概率图:是原始文本mask收缩后的图
阈值图:是文本边界向内、向外扩展后,得到的差集区域,更好的描述文本的边界。

1 Introduction

近年来,由于图像/视频理解、视觉搜索、自动驾驶和盲人辅助等广泛的实际应用,阅读场景图像中的文本已经成为一个活跃的研究领域。作为场景文本阅读的一个关键组成部分,旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务,因为场景文本通常具有不同的尺度和形状,包括水平、多方向和弯曲的文本。基于分割的场景文本检测最近吸引了很多人的注意,因为它可以描述各种形状的文本,受益于其在像素级的预测结果。然而,大多数基于分割的方法需要进行复杂的后处理,将像素级的预测结果分组为检测到的文本实例,导致推理过程中的时间成本相当高。以最近两种最先进的场景文本检测方法为例。PSENet(Wang等人,2019a)提出了渐进式比例扩展的后处理方法,以提高检测精度;Pixel embedding(Tian等人,2019)用于根据分割结果对像素进行聚类,需要计算像素间的特征距离。

大多数现有的检测方法使用类似的后处理管道,如图2所示(按照蓝色箭头所示)。首先,他们设定一个固定的阈值,将分割网络产生的概率图转换为二进制图像;然后,使用一些启发式技术,如像素聚类,将像素分组为文本实例。另外,我们的管道(按照图2中的红色箭头)旨在将二值化操作插入到分割网络中进行联合优化。通过这种方式,可以自适应地预测图像每一个地方的阈值,这可以完全区分出前景和背景的像素。然而,标准的二值化函数不是可分的,我们提出了一个近似的二值化函数,称为可分二值化(DB),在与分割网络一起训练时,它是完全可分的。

本文的主要贡献是提出了可区分的DB模块,这使得二值化的过程在CNN中可以进行端到端的训练。通过结合一个简单的语义分割网络和所提出的DB模块,我们提出了一个强大而快速的场景文本检测器。从使用DB模块的性能评估中,我们发现我们的检测器比以前最先进的基于分割的方法有几个突出的优势。

  1. 我们的方法在五个场景文本的基准数据集上取得了持续更好的性能,包括水平、多方向和弯曲的文本。
  2. 我们的方法比以前的领先方法表现得更快,因为DB可以提供一个高度稳健的二值化图,大大简化了后处理过程。
  3. DB在使用轻量级骨干时效果相当好,这大大增强了ResNet-18骨干的检测性能。
  4. 由于DB可以在推理阶段被移除而不影响性能,因此在测试中没有额外的内存/时间成本。

2 Related work

3 Methodology

我们提出的方法的结构如图3所示。首先,输入图像被送入一个特征金字塔骨架。其次,金字塔特征被上采样到相同的比例并级联产生特征F。然后,特征F被用来预测概率图(P)和阈值图(T)。之后,近似的二元图(ˆB)由P和F计算。在训练期,监督被应用于概率图、阈值图和近似二元图,其中概率图和近似二元图共享相同的监督。在推理阶段,边界盒可以通过盒形模块从近似二元图或概率图中轻松获得。

3.1Binarization

Standard binarization 给定一个由分割网络产生的概率图P∈RH×W,其中H和W表示图的高度和宽度,必须将其转换成二进制图P∈RH×W,其中值为1的像素被认为是有效的文本区域。通常情况下,这个二进制化过程可以描述如下:
在这里插入图片描述
其中t是预定的阈值,(i,j)表示map中的坐标点。

Differentiable binarization 公式1中描述的标准二值化是不可分的。因此,在训练期间,它不能与分割网络一起被优化。为了解决这个问题,我们建议用一个近似的阶梯函数来进行二值化: ˆBi,j = 1 1 + e-k(Pi,j-Ti,j) (2) 其中ˆB是近似的二值图;T是从网络中学习的自适应阈值图;k表示放大系数。这个近似二值化函数的行为类似于标准二值化函数(见图4),但它是可微分的,因此可以在训练期间与分割网络一起优化。具有自适应阈值的可分化二值化不仅有助于将文本区域与背景区分开来,还能将紧密结合的文本实例分开。一些例子在图7中得到说明。

3.2 Adaptive threshold

3.3 Deformable convolution

3.4 Label generation

概率图的标签生成受到PSENet(Wang等人,2019a)的启发。给定一个文本图像,其文本区域的每个多边形由一组片段描述。G={Sk}nk=1 (5)n是顶点的数量,在不同的数据集中可能不同,例如,ICDAR 2015数据集(Karatzas等人,2015)为4,CTW1500数据集(Liu等人,2019a)为16。然后通过使用V atti clipping算法(V ati 1992)将多边形G缩小到Gs来生成正面积。缩减的偏移量D是由原始多边形的周长L和面积A计算出来的。D = A(1 - r2) L (6) 其中r是收缩率,根据经验设定为0.4。

通过一个类似的程序,我们可以为阈值图生成标签。首先,文本多边形G以相同的偏移量D被扩张到Gd。我们认为Gs和Gd之间的间隙是文本区域的边界,在这里,阈值图的标签可以通过计算与G中最近的片段的距离来生成。

3.5 Optimization

4 Experiments

5 Conclusion

之后可学习参考的博客

文本检测里面包含DBNet笔记以及PSENet的一些内容。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AAAI 2020的教程“可解释人工智能”将重点介绍可解释人工智能的概念、方法和应用。可解释人工智能是指人工智能系统能够以一种可理解的方式解释其决策和行为的能力。该教程将涵盖可解释人工智能的基本原则和方法,包括规则推理、可视化技术、模型解释和对抗性机器学习等。 在教程中,我们将首先介绍可解释人工智能的背景和意义,解释为什么可解释性对于人工智能的发展至关重要。然后,我们将深入探讨可解释人工智能的基本概念和技术,例如局部解释和全局解释。我们还将介绍一些关键的可解释性方法,如LIME(局部诠释模型)和SHAP(SHapley Additive exPlanations),并解释它们的原理和应用场景。 此外,我们还将探讨可解释人工智能在各个领域的具体应用,包括医疗诊断、金融风险管理和智能驾驶等。我们将分享一些成功的案例和实践经验,探讨可解释人工智能在实际应用中的挑战和解决方案。最后,我们还将讨论未来可解释人工智能的发展趋势和挑战,展望可解释性在人工智能领域的重要性和前景。 通过参加该教程,学习者将能够全面了解可解释人工智能的概念、方法和应用,理解其在实际应用中的重要性,掌握一些关键的可解释性技术和工具,并对可解释人工智能的未来发展有一个清晰的认识。希望通过这次教程,能够为学习者提供一个全面而深入的可解释人工智能学习和交流平台。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值