13.Sequence-to-Sequence Contrastive Learning for Text Recognition

最新推荐文章于 2023-03-23 10:59:47 发布

热爱文学的码农

最新推荐文章于 2023-03-23 10:59:47 发布

阅读量959

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_41887799/article/details/123217165

版权

SeqCLR是一种针对序列到序列视觉识别任务的对比学习框架，尤其适用于文本识别。方法通过将特征图划分为独立实例，允许在子词级别进行对比学习，每个图像产生多个正对和负例子。通过特定的序列增强技术和自定义投影头，SeqCLR在有限的监督下表现出优于非顺序对比方法的性能，尤其在减少标签时。在标准手写文本识别基准上，SeqCLR达到了最先进的结果。

摘要由CSDN通过智能技术生成

1.介绍

我们提出了一个视觉表示的序列-序列对比学习(SeqCLR)框架，并将其应用于文本识别。为了考虑序列到序列的结构，每个特征映射被划分成不同的实例，对这些实例进行对比损耗计算。这个操作使我们能够在子词级别进行对比，从每个图像中我们提取几个正对和多个负例子。为了产生有效的文本识别的视觉表示，我们进一步提出了新的增强启发式，不同的编码器架构和自定义投影头。在手写文本和场景文本上的实验表明，当文本解码器在学习的表示上进行训练时，我们的方法优于非顺序对比方法。此外，当监督量减少时，SeqCLR符号比监督训练显著提高了性能，当对100%的标签进行调整时，我们的方法在标准手写文本识别基准上达到了最先进的结果。

对比学习是通过将同一图像的不同扩增视图的表示之间的一致性最大化，并将其与其他数据集图像的表示区分开来来实现的。

序列对比学习。(a)当前的对比方法是比较从整个图像计算得到的表示。(b)我们提出了一种序列到序列的方法，通过将特征图视为一个独立表示的序列。这在文本识别中很有用，其中单词是由字符序列组成的。

我们提出了一种方法，扩展现有的对比学习方法，以顺序预测任务，如文本识别。其关键思想是将对比学习应用于序列的各个元素，同时保留关于它们顺序的信息。为此，我们引入了一个实例映射函数，该函数在序列特征映射中每隔几个连续的帧生成一个实例

一个给定的图像，取决于它的宽度，可以产生任意数量的实例。这就增加了每批中负面例子的数量，而不需要存储库或架构修改。单个实例是序列的一部分，因此我们设计了一个增强过程，以确保序列级对齐，这是产生有效表示的关键。

2.贡献与相关工作

视觉序列对序列识别的对比学习方法。

将每个特征图视为单个实例的序列，导致在子单词水平上进行对比学习，这样，每幅图像都会产生几个正对和多个负例子。

定义序列保留增强过程，和自定义投影头。

广泛的实验验证显示手写文本的最新性能。

在这篇论文中，我们关注的是对比学习方法，它最近在一些任务上显示了很好的结果。在这种方法中，我们最大化了相同数据的不同扩充视图的表示之间的一致性和来自不同图像的表示之间的对比度。这一过程可以看作是一种分类任务，其中每个都是被认为是它自己的类。

该体系结构由以下四个阶段组成：

1.Thin Plate Spline (TPS) transformation 对输入文本图像进行规范化处理, 这个阶段是可选的，但对于不同形状的文本图像来说很重要。

2.Feature extraction ：一种卷积神经网络(CNN)，它从归一化的图像中提取特征，然后进行映射到序列的操作，将特征重新塑造成一个帧序列，用V = [v1,v2，…]表示。, vT]。所得到的帧对应于图像中不同的感知野。注意序列长度取决于输入图像的宽度。

3.Sequence modeling ：一个可选的双向LSTM (BiLSTM)方案，旨在捕获视觉特征序列中的上下文信息。该网络生成上下文特征H = [h1, h2，…， hT]，依次连接到feature map V。

4.预测:文本解码器连接分类(CTC)解码器，该解码器对每帧分别进行解码，然后删除重复的字符和空白，该解码器线性组合帧，将它们送入单层LSTM中。

3.Sequence-to-Sequence对比学习

受视觉表示学习的自我监督方法的启发，我们提出了一个序列到序列视觉识别的对比学习框架。为此，我们引入了一种新的实例映射阶段，该阶段从序列特征映射中每隔几帧就产生一个单独的实例。这些情况在对比损失中充当原子元素。我们建议一个由以下五个组成部分组成的框架:

1. 一种随机数据扩充模块，其设计目的是确保序列水平的对齐。该操作将一批N幅图像中任意给定的图像Xi，变换为两个增强图像Xai, Xbi∈RC×H×Wi，其中C表示输入通道数，H表示图像高度，Wi表示每个图像的宽度，宽度可以变化。

2. 一种基编码器f(·)，由该识别器方案的几个块组成。对于每一对增强图像，该分量提取一对序列表示Rai, Rbi RF Ti，其中F是特征维数，Ti是依赖于图像宽度的帧数。

3.一个可选的投影头g(·)，它使用一个小的辅助网络来转换表示。我们提出了可以处理不同序列大小的新的投影头类型，并通过Pai,Pbi∈RF ' ×Ti表示这一阶段输出，其中F '是投影后的特征维数。

4. 在对比损失之前，利用一种新的实例映射函数m(·)在Ti投影帧中生成Ti’实例。这些情况然后被用作对比损失中的原子元素。接下来，我们将批处理中的所有实例集合成两个对齐的集合Za,Zb，每个集合的大小为求和Ni=1，使得对应的索引指向同一输入图像的对应帧。

5. 一种对比损失函数，其目的是将Za、Zb对应指标的表示拉近，即正对，并将所有其他指标(即负例)推得更远。

这些增强组合被用于目标识别或分类任务，其中图像是对比损失中的原子输入元素。然而，由于在我们的框架中，单个实例是序列的一部分，因此我们设计了一个增强过程来确保序列级对齐。因此，我们避免诸如翻转、剧烈旋转和大量水平平移等转换。

本工作中考虑的不同增强类型的例子，在三个数据集上说明:(1)-IIT5k， (2)-IAM， (3)-RIMES。虽然翻转和积极的水平裁剪是学习视觉表征进行分类的基本增强，但在文本识别训练中应该避免它们，因为它们会导致序列级的不对齐，从而导致较差的对比学习。

4.实验

5.fine-tune

我们通过考虑半监督设置来进一步评估我们的方法。我们使用和以前一样的编码器，它们在未标记的数据上进行了预先训练，但是现在让整个网络可以使用5%或10%的标记数据集进行微调。与之前考虑类平衡数据集的工作相反，我们只是在所有实验中使用相同的随机选择数据。我们还测试了对整个标记数据的微调。请注意，这是我们为场景文本识别检查的唯一评估。

与解码器的评估不同，这里的目标是实现最好的结果，而不仅仅是限定学习到的表示。因此，与解码器评估相反，在微调阶段，可以在编码器顶部附加除解码器之外的其他层。也就是说，我们只附加了一个文本解码器(CTC或注意层)，因为在接下来的实验中，基本编码器已经包含了一个序列建模。

在训练前，我们采用非顺序的对比学习方案，往往会导致与监督基线相比，性能的下降。虽然我们的方法没有使用任何额外的数据，但它仍然成功地改善了完全监督基线训练在手写数据集上的结果。

消融研究

我们提出了SeqCLR，一种用于序列到序列视觉识别的自监督学习的对比学习算法，该算法将每个特征映射划分为一个单独的元素序列，用于对比损失。为了充分利用自我监督的优势，我们提出了一系列不同于整体图像的特定序列增强技术。主要注意任务的结构，也就是说，将一幅图像作为一组帧的序列来处理是值得的。我们的实验表明，在监督训练量有限的情况下，SeqCLR在识别手写和场景文本图像方面大大优于目前的非顺序对比学习方法。SeqCLR在标准基准数据集IAM和RIMES上的错误率分别降低了9.5%和20.8%。SeqCLR的成功将有望鼓励其他研究人员探索文本识别的半监督和自我监督方案，以及不同序列对序列预测的对比学习算法。