《TextBoxes: A Fast Text Detector with a Single Deep Neural Network》论文笔记

参考博文:
日常阅读论文,这是在谷歌学术上搜索其引用CRNN的相关文献中被引数量比较高的一篇OCR方向的文章,这里拿来读一读。

make decision

  • 论文名称:《TextBoxes: A Fast Text Detector with a Single Deep Neural Network》

  • 作者:廖明辉、石宝光、等人

  • 机构:华中科技大学电子信息与通信学院

  • 年份:2017 发布在AAAI会议上的

  • 是否精读:否,泛读

  • 做出决定日期:2021-8-23

  • 论文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14202/14295

step1:读摘要

  本文提出了一种端到端可训练的快速场景文本检测器,称为TextBoxes,它在单次网络前向传递中以高精度和高效率检测场景文本,除了标准的非最大抑制外,不涉及任何后处理。TextBoxes在文本定位精度方面优于竞争方法,并且速度更快,在快速实现中每幅图像只需要0.09秒。此外,结合文本识别器,TextBoxes在单词识别和端到端文本识别任务上明显优于最先进的方法。

step2:读Introduction

  场景文本是自然场景中最常见的视觉对象之一。它经常出现在路标、车牌、产品包装等上。阅读场景文本有助于许多有用的应用,例如基于图像的地理定位。尽管与传统的光学字符识别相似,但由于前景文本和背景对象的巨大变化以及不可控的照明条件等,场景文本读取更具挑战性。由于不可避免的挑战和复杂性,传统的文本检测方法往往涉及多个处理步骤,例如字符/单词候选生成(Neumann和Matas 2012Jaderberg等人,2016年),候选过滤和分组。他们最终通常会努力让每个模块正常工作,这需要在调整参数和设计启发式规则方面付出很多努力,同时也会降低检测速度。受目标检测最新进展的启发(刘等,2016;Ren等人,2015),我们提出通过端到端可训练的单个神经网络直接预测单词包围盒来检测文本。我们在这篇论文中的主要贡献是一个快速和准确的文本检测器,称为TextBoxes,它是基于全卷积神经网络(LeCun等人,1998)。TextBoxes通过联合预测文本存在和默认框的坐标偏移,直接输出多个网络层的单词边界框的坐标(Liu等人,2016)。最终输出是所有盒子的集合,然后是标准的非最大抑制过程。为了处理单词长宽比的巨大变化,我们设计了几个新颖的、初始风格的(Szegedy等人,2015)输出层,它们利用了不规则卷积核和默认盒子。我们的检测器在单量程输入下仅通过一次正向传递即可实现高精度和高效率,在多量程输入下通过多次传递可实现更高的精度。
  此外,我们认为单词识别有助于区分文本和背景,尤其是当单词局限于一个给定的集合,即一个词典时。我们采用了一个成功的文本识别算法,CRNN(石,白,姚2015),结合文本框。该识别器不仅提供了额外的识别输出,而且通过其语义级别的感知来规范文本检测,从而大大提高了单词识别的准确性。文本框和CRNN的结合在单词识别和端到端文本识别任务上产生了最先进的性能,这似乎是一个简单而有效的解决方案,可以在自然场景下进行文本识别。
  综上所述,本文的贡献有三:首先,我们设计了一个端到端的可训练神经网络模型用于场景文本检测。其次,我们提出了一个单词识别/端到端的识别框架,有效地结合了检测和识别。第三,我们的模型在保持计算效率的同时获得了具有竞争性的结果

step3:读 Conclusion

  我们已经提出了TextBoxes,这是一个端到端的完全卷积网络,用于文本检测,它非常稳定和高效地在杂乱的背景下生成单词建议框。对基准数据集的全面评估和比较清楚地验证了文本框在三个相关任务中的优势,包括文本检测、单词点选和端到端识别。未来,我们有兴趣扩展面向多方向文本的文本框,并将检测和识别网络结合到一个统一的框架中。

step4:读 Related works

  直观地说,场景文本阅读可以进一步分为两个子任务:文本检测和文本识别。前者旨在定位图像中的文本,主要以单词边界框的形式;后者将文字图像剪切成机器可解释的字符序列。我们在本文中涵盖了这两项任务,但更注重检测。
基于基本的检测目标,以前的文本检测方法可以大致分为三类:
1)基于字符:首先检测单个字符,然后将其分组为单词。例如,(Neumann和Matas 2012)通过对极值区域进行分类来定位字符。然后,通过穷举搜索方法对检测到的字符进行分组;
2)基于词:以与一般物体检测类似的方式直接预测单词。(Jaderberg等人,2016)提出了一个基于R-CNN的框架(Girshick等人,2014)。首先,候选词由类无关的建议生成器生成。然后通过随机森林分类器对建议进行分类。最后,采用包围盒回归的卷积神经网络对包围盒进行细化。(Gupta,Vedaldi和Zisserman 2016)比YOLO网络(Redmon等,2016)有所改进,同时它仍然采用过滤和回归步骤来进一步消除误报;
3)基于文本行:检测文本行,然后分解成单词。例如,(Zhang等人2015)提出利用文本行的对称特征来检测文本行。

  TextBoxes是基于单词的。与(Jaderberg等人,2016年)包括三个检测步骤,每个步骤还包括一个以上的算法相比,TextBoxes的流水线要简单得多。我们只需要训练一个端到端的网络。
  TextBoxes的灵感来源于SSD(刘等,2016),这是物体检测领域的最新进展。SSD旨在检测图像中的一般物体,但在具有极端纵横比的单词上失败。我们在文本框中提出了文本框层text-box layers 来解决这个问题,这显著提高了性能。

  我们采用了一个名为CRNN的文本识别器(石,白,姚,2015),它与TextBoxes一起用于单词识别和端到端识别。给定输入图像,CRNN直接输出字符序列,并且也是端到端可训练的。此外,我们使用CRNN的置信度来正则化文本框的检测输出。请注意,也可以采用其他识别器,例如(Jaderberg等人,2016年)。

step5:用textBoxes检测文本

在这一节中,介绍textBoxes的结构

结构

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值