ECCV 2022 | 浙大&快手提出CoText：基于对比学习和多信息表征的端到端视频OCR模型...-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CSIG文档图像分析与识别专委会

本文是对快手和浙大联合研究的视频OCR领域工作的简要介绍，包括 CoTex【Real-time End-to-End Video Text Spotter with Contrastive Representation Learning】和 SVRep【Contrastive Learning of Semantic and Visual Representations for Text Tracking】，其中CoText被ECCV2022录用，SVRep作为前作未出版，本文后续统一用CoText作为简称。这篇文章介绍的基于对比学习和多信息融合的视频OCR模型，主要特点是能够准确、高效的跟踪和识别视频中的文字，目前在ICDAR2015-Video in Text 等多个开源数据集实现SOTA。完整的代码已经开源，我们会在文本附上链接。

一、背景

视频作为移动互联网时代飞速发展的新媒体形式，已经超越了图片、文本等传统媒体形式，正在成为互联网的主要应用，其中视频文字作为高级语义载体，是视频感知、内容理解等方面的重要基础信息。

传统的光学字符识别（OCR）研究工作集中在图像领域，主要包含文本检测和识别过程，且在很多应用场景下都取得了较高的精度。然而，近年来视频OCR（Video Text Spotting，端到端视频文字识别，需要模型同时去完成检测，跟踪，和识别的任务）作为新的挑战，社区的关注较低，研究工作也不多，导致很多基于视频OCR的应用难以成熟落地，如视频理解，视频检索等。

先前存在的一些视频OCR研究工作，都存在以下几点问题：

● 仅利用视觉特征做视频前后帧的文字的表征，而忽略了文字的语义特征；

● 文字跟踪仅基于相邻帧，忽略了视频的长时序列依赖

● 现有的端到端模型，多使用多个独立子模型处理检测、跟踪、识别三个子任务，并使用手动策略（IOU等）整合结果，模型复杂，推理速度慢

为此，本文提出了一个基于对比学习和多信息表征的端到端视频OCR模型CoText，与现有的方法相比，CoText主要有4点贡献：

● 实现了一个统一的轻量级的框架，同时处理检测、跟踪、识别三个子任务，做到端到端可训练

● 提出了三种轻量级特征编码结构：Visual Encoder、Semantic Encoder和Position Encoder去学习文字的视觉表示、语义表示和位置表示，让模型 “像人类一样“ 去跟踪和识别文字

● 不同于先前工作（只利用两帧，做前后关联比对），CoText基于对比学习，在多信息特征空间同时学习多帧的时序信息

● CoText在4个开源数据集实现SOTA，并具有更快的推理速度。其中，在ICDAR2015 Video数据集下，CoText到达了72.0%的IDF1，相比先前的SOTA算法提升10.5%的同时，推理速度为其4倍

二、方法

2.1 算法框架

图1 CoText 算法架构

如图1所示，本文的网络框架主要包括Backbone（如Resnet18），FPN、上采样，Maked-roi和三个Head，包括检测头、识别头和跟踪头。其中检测头和Masked-Roi继承自PAN++[1]；为了获得高性能的推理速度，识别头采用轻量级CRNN；对于跟踪头，我们将识别头输出的文字的语义序列特征和从Masked-roi获取的视觉特征、位置特征三种特征融合在一起，获得文字的最终特征表示R。最后通过基于余弦距离的Kuhn-Munkres(KM算法/匈牙利匹配)进行相邻帧文字的比对关联，获得最终的跟踪结果。通过这个架构，CoText可以同时获得文字的检测框、跟踪id和文字的识别内容。

在训练阶段，三种损失函数各自优化三哥任务头，其中跟踪头基于对比学习，将持续不同帧的相同文字对象视为同类，不同文本对象视作不同类，以此学习视频文字的时序信息。

2.2 多信息表征

图2 加入语义信息后的特征空间

传统的文字跟踪模型仅利用视觉特征（图2左侧），当遇到运动、模糊等复杂场景的视频文字时，非常容易出现Id-switch问题。这种仅利用视觉特征的方式与人类的阅读机制是不一致的，人类观看视频时，会不断地通过阅读文字的内容、查看文字的样式以及观察文字位置去判断哪些文字是同一对象。我们遵从人类的机制，设计了三种编码器（Visual Encoder、Semantic Encoder和Positional Encoder)，分别对应文字的语义特征、视觉特征和位置特征。可以看到，加入了语义特征后的的表征特征空间（图2右侧），前后帧相同文字的空间距离更近，这也说明了加入了语义特征后，文本表示更加鲁棒。

图3 特征编码器结构示意图

三种特征编码器的结构如图3所示。为了获得更少的计算消耗，我们将三种编码器结构最大程度简化，均为Convolution+Gloablpooling的结构。三种特征输出维度均设置为128*1*1，并直接Concat到一起，最后再经过两层卷积做特征融合，获得文字最终的多信息表征。

图4 多帧学习策略示意图

2.3 多帧间的对比学习

现有的文字跟踪算法，均使用了相邻帧的文字关联问题研究，而忽略了长时序信息的学习。我们提出了基于长时依赖的多帧学习策略。如图4所示，给定一个属于轨迹Tm的文字实例Ti，我们认为，轨迹Tm中的任意文字，都与Ti构成正样本对；除Tm以外的任意轨迹中的文字Tj，都与Ti构成负样本对。使用基于公式1）和公式2）的损失进行优化，拉近正样本对之间的Embedding距离，同时拉远负样本对之间的Embedding距离。

2.4 文字识别

不同于先前图片级别的端到端网络如PAN++，ABCNet等，多使用基于Attention的识别架构。我们提出基于CTC的文字识别分支，应用CTC架构的原因如下：

●相比Attention，基于CTC的并行解码推理速度大大提升

●基于CTC结构产生的文字序列更加分散和原始，这对于跟踪头中的”语义特征表达“来说是更加全面的信息（”Blank“、重复字符都是重要的语义信息）。相反，使用Attention产出的语义信息相对高级，不适合用作模型的特征输入

如表1所示，得益于共享BackBone和Masked-roi，基于CTC的识别头非常轻量化，仅仅包含2个卷积层、一个双向LSTM和一个全连接层。给定一个从Masked-roi提取的特征Patch，我们首先使用两个卷积层将特征的高度h缩减为1，然后使用一个双向LSTM层学习文字的序列特征，最后使用一个全连接层映射到字符集大小。类似PAN++、ABCNet，我们在训练阶段使用GT box做特征提取，在推理阶段使用检测头的输出作为RPI区域。

2.5 损失函数

整体模型的损失函数如公式4所示。其中Ldet、Lrec和Ltrack分别代表检测、识别、跟踪的损失函数。为了将三种难度不同的任务做统一优化，我们参考[2]的工作，利用了σ1、σ2、σ3作为三个损失的可学习参数；σ1 + σ2 + σ3 是总损失的正则项。

2.6 推理

在推理阶段，与很多先前的工作一样，CoText获得相邻帧之间的文字Embedding矩阵后，通过KM算法获得前后帧文字的关联关系；整合所有帧的关联文字获得最终的跟踪结果，并在跟踪结果中选择文字识别置信度最高的作为文本识别结果。

三、实验

实验阶段我们评估了4个开源视频OCR数据集，分别为：ICDAR2013 Video、ICDAR2015 Video、Minetto和BOVText。

本文中的所有实验，我们都预先使用图片级别的数据COCO-Text进行预训练，然后在其他视频级别的数据集下进行Finetuning。在图片级预训练阶段，我们应用了Random Shift来将图片数据处理成为视频帧序列进行学习。在训练阶段，我们使用8卡TeslaV100，设置Batch_size为44，初始学习率设置为1e-3。在推理阶段，我们将图片的短边固定为特定尺寸并保持原图比例去Resize长边。所有的速度性能测试均在单卡V100和2.2GHzCPU的机器上进行，推理Batch_size为1。

对于Video Text Detection任务，检测评估指标与图片类任务一致，这里对实验详情不再介绍，具体可参考文末论文链接了解。接下来详细介绍文字跟踪和端到端任务。

得益于更简单的模型架构，相比于先前方法的复杂Pipeline（如TransVTSpotter[3]）和多阶段模型（如Free[4]），CoText在更高精度提升的前提下，速度成倍提升。

3.1 视频文字跟踪

如表3所示，在Minetto 数据集上，我们设定短边640 Pixels，CoText取得了83.9%的IDF1和86.9%的MOTA，同时维持了64.2FPS的推理速度；在ICD15Video和ICD13Video数据集中，CoText分别达到了68.6%和68.1%的IDF1。对比于先前的方法，在ICD15下实现了2.5%的IDF1提升和27.6FPS的提升。在双语大规模数据集BOVText下，我们同样获得了SOTA。

3.2 端到端视频文字spotting

表4展示了端到端任务下的实验结果。CoText继承了文字跟踪下的优势，在ICD15Video数据集下取得了72.0%的IDF1和59.0%的MOTA，相比之前的SOTA算法分别超出了10.5%和5.8%，同时，CoText实现了更高的推理速度（59.5FPS/短边640Pixel，41.0FPS/短边832Pixel），提升了至少32FPS。

BOVText包含了大规模多场景的双语视频文本数据，更具挑战。CoText实现了47.5% 的IDF1和 10.8% 的MOTA与之前的SOTA相比，分别提升了3.9%和12.2%，同时推理速度至少达到36.2FPS，相比之前方法提升3倍。

四、离线排行榜结果

与Paper中实验设置不同的是，我们在离线模型训练时，加入了更多的图片数据做预训练，进一步提升模型的性能。增加的数据包括ICDAR2015 Image，1000图；SynthText，80w图，同时增加了训练Epoch和训练时间。

在ICDAR官方社区中，我们在ICDAR2015 Text In Videos比赛，获得了全部任务的第一名。

TASK1 Text Localization

TASK4 End-to-End

五、总结与讨论

视频OCR不同于传统图片OCR，具有场景复杂和计算量大等问题。本文提出了一个具有实时性能的端到端视频OCR识别框架，将视频文字检测、跟踪、识别三项任务统一到一个简洁高效的网络中，做到端到端可训练。在多项领域开源数据集上相比先前算法取得了较大的精度、速度的双重提升，为后续视频OCR领域的研究工作贡献一个基础思路。

六、其他资源

文章链接：

●CoText：https://arxiv.org/abs/2207.08417

●SVRep：https://arxiv.org/abs/2112.14976

代码链接：https://github.com/weijiawu/CoText

Email: lizhuang05@kuaishou.com lijiahong@kuaishou.com weijiawu@zju.edu.cn

参考文献

[1] Wang, W., Xie, E., Li, X., Liu, X., Liang, D., Zhibo, Y., Lu, T., Shen, C.: Pan++: Towards efficient and accurate end-to-end spotting of arbitrarily-shaped text. TPAMI (2021)

[2] Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In CVPR, pages 7482–7491, 2018.

[3] Wu, W., Zhang, D., Cai, Y., Wang, S., Li, J., Li, Z., Tang, Y., Zhou, H.: A bilingual, openworld video text dataset and end-to-end video text spotter with transformer. In: NeurIPS (2021)

[4] Cheng, Z., Lu, J., Zou, B., Qiao, L., Xu, Y., Pu, S., Niu, Y., Wu, F., Zhou, S.: Free: A fast and robust end-to-end video text spotter. TIP 30, 822–837 (2020)

原文作者:Wejia Wu, Zhuang Li, Jiahong Li, Chunhua Shen, Hong Zhou, Tingting Gao, Zhongyuan Wang, and Ping Luo

撰稿：李壮编排：高学

审校：殷飞发布：金连文

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看