论文小结：自主、双向和迭代语言建模的场景文本识别

Resun95

已于 2023-06-10 22:50:58 修改

阅读量245

点赞数

文章标签：深度学习人工智能目标检测

于 2023-06-10 22:50:27 首次发布

本文链接：https://blog.csdn.net/m0_73492688/article/details/131147266

版权

1 简介

语言知识对场景文本识别有很大的帮助。然而，如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。论文中作者认为语言模型的有限能力来自：隐式语言建模、单向特征表示、具有噪声输入的语言模型。文章提出了一种用于场景文本识别的自主、双向和迭代的ABINet，下图比较了传统模型与本文提出的模型。（论文地址：https://arxiv.org/abs/2103.06495）

以自治，双向，迭代为指导的ABINet的特点有：首先，自治（Autonomous）显性定义视觉模型与语言模型，视觉模型只负责图像分类的功能，而语言模型只负责语言建模的功能。其次，基于双向（Bidirectional）特征表示的BCN（Bidirectional Cloze Network）作为语言模型，消除了组合两个单向模型的问题。通过指定注意掩码来控制双方字符的访问，从而在左右上下文中共同受到限制。同样，不允许跨时间步访问以防止泄漏信息。再者，语言模型迭代（Iterative）校正的执行方式，可以有效减轻噪声输入的影响。通过将ABINet 的输出反复输入到LM（Language Model），可以逐步完善预测，并可以在一定程度上缓解长度不齐的问题。另外，基于迭代预测的集合，还提出了一种可以有效地从未标记图像中学习的自训练方法。

2 探究方法

2.1 架构概览

下图展示了ABINet概览图，其中自主策略包括以下特征：1、LM被视为一个独立的拼写校正模型，它以字符的概率向量作为输入，并输出期望字符的概率分布；2、训练梯度的流动在输入向量处被阻塞（BGF）；3、LM可以与未标记的文本数据分开训练。

2.2 视觉模型

视觉模型包括一个主干网络和一个位置注意力模块。使用 ResNet 和 Transformer 作为特征提取网络和序列建模网络。

2.3 语言模型

2.3.1 自治性

自治性在实现上，就是显性定义视觉模型与语言模型，视觉模型只负责图像分类的功能，而语言模型只负责语言建模的功能。视觉模型与语言模型的交互方式为视觉模型的预测概率分布直接作为语言模型的输入。语言模型的输入为概率向量，并使用线性函数实现概率映射。二者分别使用损失函数进行训练，最终结果进行融合。其中，一个核心的点为视觉模型的输出概率向量到语言模型的输入概率向量，通过梯度阻塞的方式使得视觉模型跟语言模型进行分离，进而实现两个模型作为独立的功能个体进行学习，即实现显性地语言建模型。自治性的优势如下：

①解耦之后，视觉模型跟语言模型就互相独立了。语言模型在做语言推理的适合也不再依赖于视觉特征，视觉模型跟语言模型都是独立的个体，因此，视觉模型可以单独训练（有监督/无监督均可），而语言模型更可以轻易从海量文本中无监督预训练学习。

②强大的可解释性，我们甚至可以直接评估语言模型的性能，比如在实验章节单独针对语言模型展开定量以及可视化定性的评估，在这样的模式下，今后可以针对语言模型更加具体的问题提出解决方案。

③足够的灵活性，一方面今后如果有更优秀的语言模型能代替 ABINet中的BCN（Bidirectional Cloze Network）语言模型，那么可以在不调整其他结构比如视觉模型的前提下直接取代BCN；以及在端到端识别中，只需要替换视觉模型，而语言模型并不需要做改变，这样成本就低很多了。

④更好的拓展性，由于输入输出都是定义成概率的形式，拓展性就很强了，比如说在整体框架下可以很简单的实现第三点迭代性的建模。

⑤强迫语言模型真正地学习语言规则方面的建模。不像隐性语言模型那样，可能存在视觉特征作为混杂因子的某种关系导致了模型的偏倚，在反向传播过程中，某条作弊的路径让语言模型的学习是次优的。

2.3.2 双向表示

给定长度为n，类别为c的文本串y=(y1, . . . ,yn) ，对于双向和单向的yi的条件概率分别为P(yi∣yn, … , yi+1, yi-1, … , y1)P(yi∣yi-1, … , y1)。从信息论的角度来看，双向表示的可用熵可以量化为 Hy=(n−1) log ⁡c 。但是，对于单向表示，信息为 (1/n)∑ (i−1 )log ⁡c=(1/2) Hy 。

以前的方法通常使用两个单向模型的集合模型，这些模型本质上是单向表示。单向表示基本上捕获了(1/2)Hy信息，与双向对应相比，特征抽象的能力有限。

总体上，BCN是一个基于完型填空思想，作拼写矫正的语言模型。实现上是一个L层的 Transformer decoder的变种，注意是decoder变种，而非encoder，也不是一些方法使用的encoder+decoder。为了实现双向的建模，BCN在很大程度上跟Transformer又有区别。

该网络以字符位置序号编码作为输入，为非字符概率向量。而字符概率向量直接传入multi-head attention模块。

网络通过multi-head attention模块中的对角注意力掩码mask控制字符信息的访问。对于第t个时间步的字符来说，注意力机制通过对角mask避免看到当前字符，且实现同时访问该字符左边及右边的信息，并综合左边及右边的信息同时做出预测。

为了避免信息泄露，传统Transformer decoder中的自注意模块self-attention并没有在BCN中使用，这样避免了跨时间步上的信息访问。因此BCN的每个时间步的计算均为独立且并行的，也具有高效的特点。

设想下如果第t时间步尽管在网络输入的时候没有看到前后时间步的信息，但却在self-attention跨时间步的信息交互上看到了前后时间步的信息，那么语言模型就不需要费劲去预测了，只需要直接将“偷看”的信息恒等映射即可，如果有self-attention，效果立竿见影地降低，这也是一些基于Transformer的方法效果不好的原因。因此，BCN的一切都是为了精准实现 P (yi∣yn，…，yi+1，yi-1 , … , y1) 这个公式。多头块内部的注意力操作可以形式化为：

其中Q∈R(T×C)是第一层或最后一层的输出字符序列的位置编码，K,V∈R(T×C)是从字符概率P(yi) ∈Rc中获得的，Wl∈R(c×C) 是线性映射权重。M∈R(T×T)是阻止添加当前字符的attention masks的矩阵。在将 BCN 层堆叠到深度架构中之后，确定文本y的双向表示Fl。

2.3.3 迭代校正

Transformer 的并行预测采用噪声输入，这些噪声输入通常是视觉预测或视觉特征的近似值。具体地，如图 ABINet 所示的双向表示的例子，P(“O”)的期望条件是“SH-WING”。但是，由于环境模糊和遮挡，从VM获得的实际条件是“SH-VING”，其中“V”成为噪声并损害了预测的置信度。随着VM中错误预测的增加，它对 LM 影响更大。

为了解决噪声输入的问题，我们提出了迭代 LM。LM以y的不同分配重复执行M次。对于第一次迭代，yi=1是来自 VM 的概率预测。对于后续迭代，yi≥2是根据上次迭代中融合模型的概率预测。通过这种方式，LM可以迭代地校正视觉预测。

另一个观察结果是，基于Transformer的方法通常会遇到长度不对齐的问题，这表示如果字符数与 ground truth不对齐，则Transformer很难校正视觉预测。长度不对齐的问题是由于不可避免地采用填充掩码而引起的，该掩码对于过滤超出文本长度的上下文是固定的。迭代LM可以缓解此问题，因为视觉特征和语言特征会多次融合，因此预测的文本长度也会逐渐细化。

2.4 融合

在图像上训练的视觉模型和在文本上训练的语言模型来自不同的模式。为了使视觉特征和语言特征保持一致，仅使用门控机制进行最终决策，其中 Wf∈R(2C×C)，G∈R(T×C)。

2.5 监督训练

ABINet使用以下多任务目标进行端到端训练，其中Lv , Ll , Lf 分别Fv , Fl , Ff的交叉熵损失。Lvi, Lfi是第i个迭代的损失，λv , λl是平衡因子。

2.6 半监督整体训练

为了进一步探索迭代模型的优越性，本文提出了一种基于自我训练的半监督学习方法。自我训练的基本思想是，首先通过模型本身生成伪标签，然后使用额外的伪标签对模型进行重新训练。因此，关键问题在于构建高质量的伪标签。为了过滤噪声伪标签，提出以下方法：1）选择文本实例内字符的最小置信度作为文本确定性。 2）每个字符的迭代预测被看作是使噪声标签的影响平滑的整体。因此，定义过滤功能如下，其中C是文本实例的最小确定性，Pm(yt)是第t个字符在第 m次迭代的概率分布。Q是阈值，Bl, Bu是标注和未标注数据的训练批次，Nmax是训练的最大步数，Nupl是更新伪标签的步数。

训练流程算法图如下：

3 实验

模型的维度C=512，BCN有4层，每一层有8个注意力头部。λv和λl都为1。图像使用数据增强缩放至32×128。

4 总结

ABINet探索了在场景文本识别中利用语言知识的有效方法。ABINet是自主的，通过明确地强制学习来提高语言模型的能力；双向的，通过共同限制双方的字符上下文来学习文本表示；迭代的，逐步校正预测以减轻噪声输入的影响。基于ABINet，文章还进一步提出了一种用于半监督学习的整体自训练方法，取得了比较好的文本识别效果。