ECCV 2022 | 浙大&快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:CSIG文档图像分析与识别专委会

0b566625085ed3cd6ff80b1ecc54a9df.png

本文是对快手和浙大联合研究的视频OCR领域工作的简要介绍,包括 CoTex【Real-time End-to-End Video Text Spotter with Contrastive Representation Learning】和 SVRep【Contrastive Learning of Semantic and Visual Representations for Text Tracking】,其中CoText被ECCV2022录用,SVRep作为前作未出版,本文后续统一用CoText作为简称。这篇文章介绍的基于对比学习和多信息融合的视频OCR模型,主要特点是能够准确、高效的跟踪和识别视频中的文字,目前在ICDAR2015-Video in Text 等多个开源数据集实现SOTA。完整的代码已经开源,我们会在文本附上链接。

一、背景

视频作为移动互联网时代飞速发展的新媒体形式,已经超越了图片、文本等传统媒体形式,正在成为互联网的主要应用,其中视频文字作为高级语义载体,是视频感知、内容理解等方面的重要基础信息。

传统的光学字符识别(OCR)研究工作集中在图像领域,主要包含文本检测和识别过程,且在很多应用场景下都取得了较高的精度。然而,近年来视频OCR(Video Text Spotting, 端到端视频文字识别,需要模型同时去完成检测,跟踪,和识别的任务)作为新的挑战,社区的关注较低,研究工作也不多,导致很多基于视频OCR的应用难以成熟落地,如视频理解,视频检索等。

先前存在的一些视频OCR研究工作,都存在以下几点问题:

● 仅利用视觉特征做视频前后帧的文字的表征,而忽略了文字的语义特征;

● 文字跟踪仅基于相邻帧,忽略了视频的长时序列依赖

● 现有的端到端模型,多使用多个独立子模型处理检测、跟踪、识别三个子任务,并使用手动策略(IOU等)整合结果,模型复杂,推理速度慢

为此,本文提出了一个基于对比学习和多信息表征的端到端视频OCR模型CoText,与现有的方法相比,CoText主要有4点贡献:

● 实现了一个统一的轻量级的框架,同时处理检测、跟踪、识别三个子任务,做到端到端可训练

● 提出了三种轻量级特征编码结构:Visual Encoder、Semantic Encoder和Position Encoder去学习文字的视觉表示、语义表示和位置表示,让模型 “像人类一样“ 去跟踪和识别文字

● 不同于先前工作(只利用两帧,做前后关联比对),CoText基于对比学习,在多信息特征空间同时学习多帧的时序信息

● CoText在4个开源数据集实现SOTA,并具有更快的推理速度。其中,在ICDAR2015 Video数据集下,CoText到达了72.0%的IDF1,相比先前的SOTA算法提升10.5%的同时,推理速度为其4倍

二、方法

2.1 算法框架

9374f9ed2f3a49fd34f482d61d3339a1.png

图1 CoText 算法架构

如图1所示,本文的网络框架主要包括Backbone(如Resnet18),FPN、上采样,Maked-roi和三个Head,包括检测头、识别头和跟踪头。其中检测头和Masked-Roi继承自PAN++[1];为了获得高性能的推理速度,识别头采用轻量级CRNN;对于跟踪头,我们将识别头输出的文字的语义序列特征和从Masked-roi获取的视觉特征、位置特征三种特征融合在一起,获得文字的最终特征表示R。最后通过基于余弦距离的Kuhn-Munkres(KM算法/匈牙利匹配)进行相邻帧文字的比对关联,获得最终的跟踪结果。通过这个架构,CoText可以同时获得文字的检测框、跟踪id和文字的识别内容。

在训练阶段,三种损失函数各自优化三哥任务头,其中跟踪头基于对比学习,将持续不同帧的相同文字对象视为同类,不同文本对象视作不同类,以此学习视频文字的时序信息。

2.2 多信息表征  

31825b04643b5455c4501663e7d331a4.png

图2 加入语义信息后的特征空间

传统的文字跟踪模型仅利用视觉特征(图2左侧),当遇到运动、模糊等复杂场景的视频文字时,非常容易出现Id-switch问题。这种仅利用视觉特征的方式与人类的阅读机制是不一致的,人类观看视频时,会不断地通过阅读文字的内容、查看文字的样式以及观察文字位置去判断哪些文字是同一对象。我们遵从人类的机制,设计了三种编码器(Visual Encoder、Semantic Encoder和Positional Encoder),分别对应文字的语义特征、视觉特征和位置特征。可以看到,加入了语义特征后的的表征特征空间(图2右侧),前后帧相同文字的空间距离更近,这也说明了加入了语义特征后,文本表示更加鲁棒。 

4f0ea7509ada3b77fd3f72f96a3e0607.png

图3 特征编码器结构示意图

三种特征编码器的结构如图3所示。为了获得更少的计算消耗,我们将三种编码器结构最大程度简化,均为Convolution+Gloablpooling的结构。三种特征输出维度均设置为128*1*1,并直接Concat到一起,最后再经过两层卷积做特征融合,获得文字最终的多信息表征。 

2df88fe36e6da3521e58f1b7c413eba0.png

图4  多帧学习策略示意图

492c7531a1d4fdd80fb8355b46d390f4.png

2.3 多帧间的对比学习

现有的文字跟踪算法,均使用了相邻帧的文字关联问题研究,而忽略了长时序信息的学习。我们提出了基于长时依赖的多帧学习策略。如图4所示,给定一个属于轨迹Tm的文字实例Ti,我们认为,轨迹Tm中的任意文字,都与Ti构成正样本对;除Tm以外的任意轨迹中的文字Tj,都与Ti构成负样本对。使用基于公式1)和公式2)的损失进行优化,拉近正样本对之间的Embedding距离,同时拉远负样本对之间的Embedding距离。 

17b2dc8c1a9c25aa8b7b493af4a13477.png

2.4 文字识别

不同于先前图片级别的端到端网络如PAN++,ABCNet等,多使用基于Attention的识别架构。我们提出基于CTC的文字识别分支,应用CTC架构的原因如下:

●相比Attention,基于CTC的并行解码推理速度大大提升

●基于CTC结构产生的文字序列更加分散和原始,这对于跟踪头中的”语义特征表达“来说是更加全面的信息(”Blank“、重复字符都是重要的语义信息)。相反,使用Attention产出的语义信息相对高级,不适合用作模型的特征输入

如表1所示,得益于共享BackBone和Masked-roi,基于CTC的识别头非常轻量化,仅仅包含2个卷积层、一个双向LSTM和一个全连接层。给定一个从Masked-roi提取的特征Patch,我们首先使用两个卷积层将特征的高度h缩减为1,然后使用一个双向LSTM层学习文字的序列特征,最后使用一个全连接层映射到字符集大小。类似PAN++、ABCNet,我们在训练阶段使用GT box做特征提取,在推理阶段使用检测头的输出作为RPI区域。 

d0f86c19ed3a74131d53b84baaa27ba8.png

2.5 损失函数

整体模型的损失函数如公式4所示。其中Ldet、Lrec和Ltrack分别代表检测、识别、跟踪的损失函数。为了将三种难度不同的任务做统一优化,我们参考[2]的工作,利用了σ1、σ2、σ3作为三个损失的可学习参数;σ1 + σ2 + σ3 是总损失的正则项。

2.6 推理

在推理阶段,与很多先前的工作一样,CoText获得相邻帧之间的文字Embedding矩阵后,通过KM算法获得前后帧文字的关联关系;整合所有帧的关联文字获得最终的跟踪结果,并在跟踪结果中选择文字识别置信度最高的作为文本识别结果。

三、实验

实验阶段我们评估了4个开源视频OCR数据集,分别为:ICDAR2013 Video、ICDAR2015 Video、Minetto和BOVText。

本文中的所有实验,我们都预先使用图片级别的数据COCO-Text进行预训练,然后在其他视频级别的数据集下进行Finetuning。在图片级预训练阶段,我们应用了Random Shift来将图片数据处理成为视频帧序列进行学习。在训练阶段,我们使用8卡TeslaV100,设置Batch_size为44,初始学习率设置为1e-3。在推理阶段,我们将图片的短边固定为特定尺寸并保持原图比例去Resize长边。所有的速度性能测试均在单卡V100和2.2GHzCPU的机器上进行,推理Batch_size为1。

对于Video Text Detection任务,检测评估指标与图片类任务一致,这里对实验详情不再介绍,具体可参考文末论文链接了解。接下来详细介绍文字跟踪和端到端任务。

得益于更简单的模型架构,相比于先前方法的复杂Pipeline(如TransVTSpotter[3])和多阶段模型(如Free[4]),CoText在更高精度提升的前提下,速度成倍提升。

3.1 视频文字跟踪

5d72a571b859fc5d363f25417298c851.png

如表3所示,在Minetto 数据集上,我们设定短边640 Pixels,CoText取得了83.9%的IDF1和86.9%的MOTA,同时维持了64.2FPS的推理速度;在ICD15Video和ICD13Video数据集中,CoText分别达到了68.6%和68.1%的IDF1。对比于先前的方法,在ICD15下实现了2.5%的IDF1提升和27.6FPS的提升。在双语大规模数据集BOVText下,我们同样获得了SOTA。

3.2 端到端视频文字spotting

表4展示了端到端任务下的实验结果。CoText继承了文字跟踪下的优势,在ICD15Video数据集下取得了72.0%的IDF1和59.0%的MOTA,相比之前的SOTA算法分别超出了10.5%和5.8%,同时,CoText实现了更高的推理速度(59.5FPS/短边640Pixel,41.0FPS/短边832Pixel),提升了至少32FPS。

BOVText包含了大规模多场景的双语视频文本数据,更具挑战。CoText实现了47.5% 的IDF1和 10.8% 的MOTA与之前的SOTA相比,分别提升了3.9%和12.2%,同时推理速度至少达到36.2FPS,相比之前方法提升3倍。 

bf5b41172156a505279aba30fee86ce5.png

四、离线排行榜结果

与Paper中实验设置不同的是,我们在离线模型训练时,加入了更多的图片数据做预训练,进一步提升模型的性能。增加的数据包括ICDAR2015 Image,1000图;SynthText,80w图,同时增加了训练Epoch和训练时间。

在ICDAR官方社区中,我们在ICDAR2015 Text In Videos比赛,获得了全部任务的第一名。

TASK1 Text Localization 

a6c5d40c43ee5bf3d072f28537f06a63.png

TASK4 End-to-End 

e839f988ff30d3e88d45eb268fe2f7d8.png

五、总结与讨论

视频OCR不同于传统图片OCR,具有场景复杂和计算量大等问题。本文提出了一个具有实时性能的端到端视频OCR识别框架,将视频文字检测、跟踪、识别三项任务统一到一个简洁高效的网络中,做到端到端可训练。在多项领域开源数据集上相比先前算法取得了较大的精度、速度的双重提升,为后续视频OCR领域的研究工作贡献一个基础思路。

六、其他资源

文章链接:

●CoText:https://arxiv.org/abs/2207.08417

●SVRep:https://arxiv.org/abs/2112.14976

代码链接:https://github.com/weijiawu/CoText

Email:  lizhuang05@kuaishou.com  lijiahong@kuaishou.com weijiawu@zju.edu.cn

参考文献

[1] Wang, W., Xie, E., Li, X., Liu, X., Liang, D., Zhibo, Y., Lu, T., Shen, C.: Pan++: Towards efficient and accurate end-to-end spotting of arbitrarily-shaped text. TPAMI (2021)

[2] Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In CVPR, pages 7482–7491, 2018.

[3] Wu, W., Zhang, D., Cai, Y., Wang, S., Li, J., Li, Z., Tang, Y., Zhou, H.: A bilingual, openworld video text dataset and end-to-end video text spotter with transformer. In: NeurIPS (2021)

[4] Cheng, Z., Lu, J., Zou, B., Qiao, L., Xu, Y., Pu, S., Niu, Y., Wu, F., Zhou, S.: Free: A fast and robust end-to-end video text spotter. TIP 30, 822–837 (2020)

原文作者:Wejia Wu, Zhuang Li, Jiahong Li, Chunhua Shen, Hong Zhou, Tingting Gao, Zhongyuan Wang, and Ping Luo

撰稿:李 壮 编排:高 学

审校:殷 飞 发布:金连文

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值