《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》论文阅读笔记

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

重点在于实验部分,看看人家围绕创新点都是怎么样做实验的。


Abstract

目的: 处理扭曲或不规则布局的文本(如自然场景中的透视文本和弯曲文本,很难识别)提出了ASTER模型,一个端到端的神经网络模型,包括一个校正网络和一个识别网络。

  • 校正网络: 自适应的将输入图像转换成新图像,校正其中的文本。它由a flexible Thin-Plate Spline transformation 所驱动,在没有去人工注释的情况下去训练各种不规则性的文本。
  • 识别网络: an attentional sequence-to-sequence model,能够直接从校正后的图像中预测字符序列。

通过大量的实验,验证了校正的有效性,并展示了ASTER的SOTA识别性能,并证明ASTER是在端到端的识别模型中一个强大组件。

Q1:怎样通过实验来证明其校正有效性以及识别性能的?

1. Introduction

介绍了使用卷积神经网络(CNN)通过字符识别文本的方法,使用CNN对单词进行分类的方法[24],[26],以及使用CNN和递归神经网络的组合来识别字符序列的方法(RNN) [54]。但是没有解决不规则的文本的问题,不规则文本指的是:非水平和正面、具有弯曲布局等的文本。
提出了ASTER,它是具有灵活校正的注意力场景文本识别器,用于场景文本识别。ASTER通过清晰的纠正机制来解决不规则文本问题。
创新点:

  1. 通过校正网络来实现文本校正,这个变换是: parameterized Thin-Plate Spline (TPS),一种 灵活的变换,可以处理各种文本不规则性。该机制在没有额外注释的情况下显著提高了识别性能。
  2. 识别网络通过以an attentional sequence-tosequence 的方式从校正后的图像预测字符序列。并且将传统的单向解码器扩展为双向解码器。双向解码器由两个解码方向相反的解码器组成。它合并了两个解码器的输出,利用了两个方向的依赖性。
  3. 提出了一种利用ASTER的文本校正和识别能力来增强文本检测器的方法。

2. RELATED WORK

2.1

在这里插入图片描述

我们的方法属于结构化学习的范畴。它基于注意序列对序列的学习模型[3],[13]。这种模型学习从输入序列中预测输出序列,最初被提出用于机器翻译和语音识别任务。这篇论文的会议版[55]是第一个,与[36]并行,在场景文本识别任务中探索这样的模型。这项工作进一步扩展了双向解码器[55]。

2.2 文本校正

场景文本通常以单个单词的形式被识别,现在的方法不是很适用,作者的方法在概念上更简单,因为它不需要显式的字符检测。此外,与[64]和[11]相比,我们的方法不需要额外的字符级注释。

2.3 文字检测和端到端识别

  • TextBoxes应用SSD检测器来对文本进行检测
  • EAST使用FCN全卷积神经网络对字符进行分割检测
  • Deep TextSpotter 将基于FCN的检测器和基于CTC的识别器结合成一个端到端的可训练框架。
  • [63] [27]首先生成文本建议,然后用独立的单词识别模型进行识别。

虽然本文的重点是文本识别,但我们表明ASTER有助于实现最先进的端到端性能,即使没有最强的检测器。此外,我们还证明了ASTER可以通过其整流机制增强探测器。这些特性使ASTER成为端到端识别系统中一个有吸引力的识别器。

3. Model

该模型由文本校正网络和文本识别网络两部分组成。在接下来的章节中,我们首先分别描述第3.1节和第3.2节中的两个部分。然后,我们在第3.3节中描述了培训策略。

3.2 识别网络

只使用图像和它们的基本文本注释进行训练,这个模型的核心是CTC算法。CTC提供了一个对水平字符位置和间距不敏感的可微分损失函数,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值