文本识别综述＜软件学报_王建新等、中国图象图形学报_刘崇宇等＞

NCEPU_ZZE

已于 2022-10-08 17:32:32 修改

阅读量1.3k

点赞数 1

文章标签：深度学习计算机视觉机器学习

于 2022-10-06 11:33:19 首次发布

本文链接：https://blog.csdn.net/qq_42882457/article/details/127179774

版权

1 软件学报_王建新

在这里插入图片描述

基于时序特征分类的方法

基于时序特征分类的方法首先利用卷积网络将图像转换为图像特征序列,然后采用循环神经网络或者卷积网络将图像特征序列识别为字符概率预测序列.鉴于图像特征序列长度和字符概率预测序列长度相同,预测结果和真值可能无法对齐导致模型无法计算损失函数和训练,该类方法中往往引入连接时序分(connectionist temporal classification,简称CTC)算法.CTC 算法首先定义预测结果到真值序列之间的转换方式,利用动态规划的思想从预测概率矩阵中得到多条状态转移路径,并将最大化所有路径概率和作为优化目标.
在这里插入图片描述
CRNN包含卷积层、循环层和转录层:卷积层从产生的图像特征中提取特性向量序列,循环层采用多层 BiLSTM 结构学习特征序列的双向依赖关系,并预测得到文本字符序列概率;转录层根据 CTC 算法定义的预测结果转换方式将预测的字符概率序列转录为文本.由于 RNN 能获得文本序列的上下文关系特征,使得该方法的识别性能优于基于朴素卷积神经网络的方法.

DTRN,通过宽高与图像的高度相同的滑动窗口将图像剪裁为一组子图像,并将子图像依次输入卷积网络中提取特征向量,然后得到与其对应的一组特征列.DTRN的卷积网络采用 MaxOut 激活方法,即将特征图分为固定组数,并将每组特征图中每个位置的最大值作为激活特征.最后,该网络模型将特征序列输入到循环网络中得到序列分类预测结果.该激活方法增强了模型的拟合能力,但增加了模型的参数量.

通常,基于时序特征分类的方法大都首先利用卷积网络提取图像序列特征.这些特征的空间不变性不利于预测具有时序依赖的文本序列,因此提出了基于注意力的文本识别网络模型,并将像素的坐标添加到卷积特征中增强特征的空间相关性,其注意力机制将图像特征和循环网络隐含层输出的时变偏移特征相结合得到空间注意力矩阵,循环网络当前时刻分类预测输入特征包含前一时刻的预测输出和前一时刻得到的空间注意力权重矩阵与图像特征的加权.该方法在具有挑战性的法国街道名称标志数据集上达到了较好的识别准确率.

基于编码器和解码器的方法

基于编码器和解码器的方法是一类将序转化为另一序列的算法框架,该类方法通过编码器将图像特征转换为固定长度的中间语义编码特征,解码器将中间语义编码特征解码为文本序列.这种识别方法可以训练预测任意的两个序列之间的对应关系,而且避免了时序特征分类识别方法中的序列对齐问题.但是由于其解码器的
输入特征仅依赖于的固定长度的中间语义编码特征向量,当输入序列较长时,编码器编码过程存在信息丢失的问题;其次,在解码器每个时刻的解码过程中,使用的中间语义特征是相同的,这都会给解码识别目标序列带来一定的困难.为了解决上述问题,该类方法通常引入注意力机制,使得编码器每个中间特征向量的权重不同.这样,每个时刻的输入特征与当前预测输出具有时序上下文关系,更有利于得到准确的预测结果.

基于深度学习的端到端的自然场景文本识别方法

,大部分研究者将自然场景文本检测和识别分割为两个独立的任务,即首先利用检测网络得到图像中文本框,再将根据文本框得到剪裁的文本实例图像输入到文本识别网络识别文本内容.基于深度学习的端到端的自然场景文本识别方法将文本检测任务.和文本识别任务结合在统一的网络模型中.该类方法通常共享底层卷积特征,根据共享特征检测文本区域,再将文本区域共享特征馈送到识别模块中识别文本内容.相较于将文本检测和识别分割为不同任务的方法,端到端的识别方法更具有挑战性,其优点在于,共享底层特征的方式降低了文本检测到识别过程的运算参数,并且其文本识别损失根据反向传播算法能够优化底层特征的提取和文本检测.本节将对端到端的自然场景文本识别方法(见表3)的特点、关键技术和主要优缺点进行分析介绍.

在这里插入图片描述
通常,自然场景文本端到端的识别方法通常都需要先进行定位再识别文本.文献[86]提出了基于深度卷积网络的街景图像多位数字识别模型,该模型通过直接在图像像素矩阵上进行卷积操作获取图像特征,并通过全连接层输出预测值.该模型根据现实场景特点将图像中的数字长度分为 0~5 以及大于 5 共 7 种情况,并将图像
中的数字长度和对应长度的多位数字作为预测结果,最终选取数字长度概率和对应长度数字概率和最大的为预测结果表示图像中的数字.由于该方法对数字长度设定的先验条件,导致其只能识别出场景图像中数字长度低于 5 的多位数字,使得其应用场景很受限.
将文本检测和识别整合到端到端的场景文本识别网络中,如图 11 所示.该网络利用统一的神经网络训练学习文本检测和识别模块,其中,文本检测模块基于通用目标检测框架 YOLOv2[87],RPN 网络的预设文本候选框采用 k-means 算法从训练集上得到的不同比例大小矩形框;识别模块使用基于时序特征分类文本识别方
法对识别文本框内容,并且根据识别结果过滤错误的文本检测结果.为了提取不同倾斜角度的文本卷积特征,该模型用仿射变换和双线性采样代替 YOLOv2[87]的 ROI 池化方法.

大多数端到端的文本识别模型的训练数据标签包含文本框的位置信息和文本框的内容信息,对于需要大量训练数据的文本识别模型来说增加了手工标注的工作量.文献[90]提出一种半监督的端到端的文本识别模型,模型的训练数据标签仅包含一组文本内容标签,不使用任何标签来训练文本检测模块.该模型的文本检测模
块使用卷积网络和 BiLSTM 预测一组空间变换参数,根据变换参数和图像大小生成采样网格,再根据采样网格从原图中提取文本区域,文本检测模块使用采样得到的文本区域图像识别图像中的文本.虽然该方法的识别率不及其他方法,但为端到端的文本识别技术发展提供了新的思路.

端到端的文本识别性能评估

端到端的文本识别性能评估方式

通常,ICDAR 端到端的文本识别任务采用文献[4]中的评估方式,如果图像中某个检测框与真值框重叠超过阈值(一般为 50%)并且检测框中的单词识别正确,则该检测框文本识别成功;否则为识别失败.评估方式分为两类:end-to-end 和 word spotting,其中,end-to-end 表示检测并识别图像中的文本,word spotting 表示检测并识别词汇表单词(即将包含不合法字符的标注的真值单词视为无关项,该项识别结果不影响评估结果).与文本识别类似,端到端的文本识别任务提供 3 种不同的约束词汇表.

(1) Strong:每张图像的强语境词汇表(100 个单词),包括图像中的所有单词以及从训练或测试集的其余部分选择的干扰词.
(2) Weakly:包括训练和测试集中所有单词的弱语境词汇表.
(3) Generic:源自 Jaderberg 等人的数据集,大约 90K 单词的通用词汇表.

目前,大部分文本识别研究主要面向单独的文本检测和单独文本识别模型构建,涉及端到端的文本识别网络模型的构建研究并不多,本节介绍几种主要的端到端的文本识别方法在数据集 ICDAR2013 和 ICDAR2015上的识别性能.

端到端的文本识别方法分析对比

端到端的文本识别方法在数据集 ICDAR2013 上的性能见表 8,通用词典、弱语境词典和强语境词典约束条件的文本识别 F-measure 逐渐提高.由于 word spotting 评估方式将图像中包含非法字符的文本视为无关文本,使得 word spotting 评估方式的 F-measure 高于 end-to-end.Deep TextSpotter采用 RPN 和卷积特征时序分类识别图像文本内容在 end-to-end 和 word spotting 评估方式的强语境约束条件下的 F-measure 分别达到了 0.89 和0.92.TE-CRNN]采用 Faster-RCNN 以及基于 LSTM 的编码器和解码器识别文本内容,该方法在数据集ICDAR2013 上的不同评估方法和约束条件的识别 F-measure 均高DeepTextSpotter.TextSpotter使用ESAT模块检测文本框并在解码器增加了注意力对齐和增强,其 F-measure 在数据集 ICDAR2013 上与 TE-CRNN相近.Mask TextSpotter方法在数据集 ICDAR2013 上 end-to-end 评估方式的 F-measure 达到了 0.922, 0.911 和 0.865,该方法基于字符实例概率图的识别方式在数据集 ICDAR2013 上仅 word spotting 评估方式的强语境约束的 F-measure 低于其他方法.FOTS基于ESAT和时序特征分类的识别模型在 ICDAR2013 上的F-measure 与 TE-CRNN相当,其中 word spotting 评估方式的强语境和弱语境约束的 F-measure 高于其他方法.
在这里插入图片描述

2 中国图象图形学报_刘崇宇

基于深度学习的可端到端训练的自然场景检测与识别算法**( text spotting) **由于其简洁高效且统一的结构，逐渐取代了过去将检测与识别分阶段训练然后拼接在一起的方案，成为自然场景文本检测与识别的主流研究方向之一。端到端自然场景文本检测
和识别网络一般都共享特征提取分支，根据提取的特征进行文本检测，然后将检测得到的文本特征送入识别模块进行文本识别。
在这里插入图片描述
Li 等人( 2017a) 提出了第 1 个基于深度学习的端到端自然场景文本检测和识别算法，该方法基于 Faster R-CNN 进行检测，将通过ＲoI-Pooling 提取的共享特征送入基于注意力机制( Attention) 的识别器进行文本识别，但该方法只能检测识别水平方向的文本。 Lyu 等人( 2018b) 基于 Mask Ｒ-CNN 提出了 Mask TextSpotter，该方法在 RoI-Align 之后额外增加了一个单字实例分割的分支，对文本的识别也是依赖于该分支的单字符分类。它能够检测并识别任意形状的文本，但训练的时候需要依赖字符级别的标注。作者后续在这个工作的基础上提出了 Mask TextSpotter v2 ( Liao 等，2021 ) ，它加入了基于Attention机制的序列识别分支以提高识别器性能，其结构如图 13 所示。Qin 等人( 2019) 也是在Mask Ｒ-CNN上进行改进，在预测出分割结果和文本最大外接检测框之后通过ＲoI Masking 的操作得到只有文本区域的特征图送入文本识别网络。后来Liao 等人( 2020a) 考虑到RPN 得到的文本候选区域对于任意形状的文本不鲁棒，于是提出了 Mask TextSpotter v3，它首先设计了一个Anchor-free的分割区域提取网络( segmentation proposal network，SPN) 替代RPN预测任意形状文本的显著图，然后根据每个文本的掩码 mask 进行 Hard RoI Masking操作，得到该文本的特征并送入识别网络，检测和识别分支的设计思路都沿用作者之前的Mask TextSpotter v2。

Liao 等人( 2017) 提出的TextBoxes( Liao 等人，2017 ) 和TextBoxes + + ( Liao 等人，2018a) 都是基于单阶段目标检测器 SSD
进行改进，在得到文本检测框之后送入CRNN( Shi等人，2017b) 进行文本识别。其中 TextBoxes 只能识别水平文本，而 TextBoxes ++ 由于加入了角度预测，所以能识别任意方向的四边形文本。He等人( 2018) 使用EAST算法先检测到任意方向的文本，然后通过Text Align层在检测框内进行采样得到文本区域特征送入识别分支进行识别。Liu 等人( 2018c) 提出的 FOTS( fast oriented text spotting) 也是和 He 等人的思想类似，同样使用 EAST 作为检测分支，不同之处在于 FOTS 是通过RoI rotate转换任
意方向文本的特征送入识别器进行文本识别。Xing等人( 2019) 提出的 CharNet 则是和 Mask TextSpotter一样使用单字符实例分割作为识别单元，检测单元则是基于单字检测和文本行检测的结合。此外， CharNet 引入了和 CＲAFT 类似的迭代字符检测方法
以得到单字检测结果，提高端到端的性能。基于文本组件的方法还有 Feng 等人( 2019a) 提出的 Text- Dragon，它不需要与 CharNet 一样的单字符级别标注，其检测分支先检测文本的任意四边形组件，然后通过ＲoI slide 操作与 CTC 算法结合进行文本识别。 Qiao 等人( 2020a) 提出的 TextPerceptron 基于分割的方法对任意形状的文本进行检测，然后通过一个形状变换模块( shape transform module) 将检测到的文本区域矫正成规则形态并送入识别分支。

Liu 等人( 2020) 基于不需要锚点框( anchor-free) 的单阶段目标检测器 FCOS ( fully convolutional one-stage object detector) ( Tian 等，2019) 提出了 ABCNet ( adaptive Bezier-curve net- work) ，用三次贝塞尔曲线对不规则文本进行建模，通过学习贝塞尔曲线控制点检测文本实例，并提出了Bezier Align 更高效地连接检测与识别的特征，极大提高了端到端文本检测与识别的效率和性能，ABCNet 的结构如图 14 所示。

在这里插入图片描述

端到端场景文本检测与识别方法也主要在 ICDAR2013、ICDAR2015、Total-Text 和 SCUT CTW1500数据集上对比实验结果。对于四边形文本端到端算法性能对比见表 8 和表 9 所示( 表 8 和表 9 中，S、 W、G 代表使用 3 种不同类型的词汇表。S( strong) :
每幅图像包含的所有单词以及从数据集选取的部分单词组成词汇表( 总共 100 个) ; W( weakly) : 包括训练集和测试集所有单词组成的词汇表; G( generic) :通用词汇表，共计 90 k，来源于文献( Jaderberg 等人，2016) ) 。对于不规则文本端到端算法性能对比
如表 10 所示。从表格可看出，基于有单字监督的端到端自然场景文本检测与识别算法，比如 Mask TextSpotter ( Lyu 等，2018b; Liao 等，2021; Liao 等， 2020a) ，CＲAFTS( Baek 等，2020) ，CharNet( Xing 等， 2019) 的效果会更优。但总体来说，此类算法的性能还存在很大提升空间，暂时很难应用于实际场景。