CVPR2021 | ABINet+: 似人阅读: 场景文本识别的自主、双向和迭代语言建模

羊飘

已于 2023-03-13 09:52:20 修改

阅读量2.7k

点赞数 1

分类专栏：每日读论文 VLP 文章标签：语言模型深度学习人工智能

于 2023-02-23 20:40:01 首次发布

本文链接：https://blog.csdn.net/justBeHerHero/article/details/129189589

版权

每日读论文同时被 2 个专栏收录

56 篇文章

订阅专栏

VLP

6 篇文章

订阅专栏

论文标题：ABINet+：Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

代码：https://github.com/FangShancheng/ABINet

链接：https://arxiv.org/abs/2103.06495

一、Abstract

However, how to effectively model linguistic rules in end-to-end deep networks remains a research challenge.

Reason：

隐式语言建模；implicitly language modeling

单向特征表示；unidirectional feature representation

有噪声输入的语言模型；language model with noise input

因此作者提出：

block gradient flow between vision and language models to enforce explicitly language modeling。阻断视觉模型与语言模型之间的梯度流来实现显式语言建模

bidirectional cloze network (BCN) as the language model。双向网络(BCN)作为语言模型

execution manner of iterative correction。迭代修正减少噪声

二、Introductions

Autonomous：将自主原理应用于场景文本识别(STR)，将识别模型解耦为视觉模型(VM)和语言模型(LM)。子模型作为独立的功能单元。LMs是否以及如何学习字符关系是不可知的。此外，这种方法对于从大规模无标签文本中直接预训练LM获取丰富的先验知识是不可行的。

Bidirectional：用双向LM模型可捕获两倍的信息量。构建双向模型的一种直接方法是合并从左到右的模型和从右到左的模型。然而，由于其语言特征是单向表征的，因此功能较弱，同时在计算和参数上都要花费两倍的成本。BERT引入了通过mask textual token modeling的深度双向表示，直接将BERT应用于STR需要mask文本中所有字符，而这是非常昂贵的，因为每次只能屏蔽一个字符。

Iterative：采用迭代执行的LMs可以从视觉和语言线索中优化预测，这是现有方法所没有探索的。为适应Transformer架构，放弃自回归，采用并行预测来提高效率。然而，在并行预测中仍然存在噪声输入，虚拟机输出的误差直接影响LM的精度。

首先，通过阻塞梯度流(BGF)在VM和LM之间探索了一种解耦方法(图1b)，该方法强制LM显式地学习语言规则。此外，VM和LM都是自治单元，可以分别从图像和文本进行预训练。其次，设计了一个新的双向完形网络(BCN)作为LM，消除了两个单向模型组合的困境(图1c)。BCN同时以左右上下文为条件，通过指定注意掩码来控制两边字符的访问。此外，为了防止信息泄露，不允许跨步骤访问。第三，我们提出了一种LM迭代修正的执行方式(图1b)。通过将ABINet的输出反复输入LM，可以逐步改进预测，并在一定程度上缓解长度不对齐的问题。