视频与图像文本的提取方法综述

最新推荐文章于 2024-08-20 20:07:07 发布

巴依捞爷

最新推荐文章于 2024-08-20 20:07:07 发布

阅读量862

点赞数 15

文章标签：音视频

本文链接：https://blog.csdn.net/w13843571755/article/details/140930704

版权

0.前言

本文伊始意在解决本人大创AR眼睛项目关于文本提取的问题，大部分模型与论文均停留在2016年，有一些是实用性过于局限的解决方案我没有收录

一、自然场景中常见的文本属性

1)尺寸:字体大小变化的范围可能不同。

2) 对准：自然场景常常在多个方向对准，并且有几何失真。

3) 颜色:字符通常具有同样或相似的颜色。这个特性使得基于连通分量的文本检测成为可能。

4) 边缘:为使自然场景中的文本容易阅读，文本和背景边界通常具有强烈的边缘。

5) 失真:由于照相机的角度问题，一些图像中的文本会出现角度扭曲，这会显著影响提取性能

二、在文本提取过程中可能遇见的技术难点：

1) 图像中的文本通常具有多尺寸、多字体、多颜色、多语

言和低对比度的特点。

2) 背景复杂：自然场景中存在许多与文本结构和外观相

似的物体，如建筑物、符号和树叶等。图像中的文本通常嵌入

在复杂的背景中，这使得检测提取变得更困难。（由于我们仅仅去提取书本上的文字，所以目前遇不到如此复杂的背景，最多也就是封面背景略复杂）

3) 照度不均匀：由于照明和感知装备不均匀等原因，自然

场景图像中经常出现照度不均匀的现象。照度不均匀可导致

颜色失真和视觉特征恶化，从而引入错误的检测、分割、识别

结果。

当佩戴者没有良好的阅读环境时该问题容易出现

4) 图像退化:视频图像中的字符的分辨率通常较低，字符

质量没有达到利用常规的O C R 系统进行处理的要求。流行

的有损压缩方法，如 M P E G ，J P E G 等使得视频图像质量

更低。

该问题落在AR上就会体现在由于采集设备分辨率低等问题导致传入图像的质量低下哎，达不到文本提取的要求。

5) 失真:当相机光轴不垂直于文字平面时，会导致视角扭

曲，图像中的文本在方向、对准方面存在差异。字符扭曲和非

矩形的文本边界框会显著影响文本提取的性能。

当佩戴者没有良好的阅读习惯时该问题容易出现

三、文本提取流程：

文本检测：在给定的帧中(通常文本检测用于序列图像)测定文本的存在。

文本定位：确定图像中文本的位置并且生成文本边界框的过程。

OCR（光学字符是识别）：经过检测亮度肯定形状，用字符识别方法将形状翻译成计算机文字的过程

虽然图像中文本的精确位置可以用边界框表示，但是仍然需要将文本从背景中分割出来进行识别，这意味着在输入O C R 之前，文本图像需要转化为二进制图像并且进行图像增强。文本分割阶段是将文本从背景中分割出来，并提取出字符块精确的轮廓。由于文本区域通常具有低分辨率的特点，并且容易产生噪音，因此需要进行文本图像增强。此后，可以使用O C R 技术将提取的文本图像转换成纯文本。

四、文本区域检测与定位

1.基于边缘的算法（可以尝试，但不能用作最终版）

基于Canny和Laplacian进行边缘检测，确定有高边缘密度与强度的区域。后用形态学操作提取文本。

现有方法：

1.在自然场景图像中提取文本的方法。这种算法基于彩色图像滤波技术，首先获取边缘，随后分析字符间的固有特性。

YE Q, JIAO J , HUANG J , et al. Text detection and restoration in natural scene images [J ] . Journal of Visual Communication and Image Representation, 2007,18(6) ： 504-513.

2.运用多尺度边缘检测器检测边缘，多尺度边缘检测器由边缘强度、密度和方向方差形成

OU W,ZHU J,LIU C. Text location in natural scene [J]. Journal of Chinese Information Processing,2004,18(5) ：42-43.

3.带有强度分量的改进边缘图来进行文本检测，利用由粗到精的映射聚集检测文本区域，并利用局部阈值法和内部填充提取文本字符串。

LYU M R,SONG J,CAI M. A comprehensive method for mutilingual video text detection, localization, and extraction [ J ] .IEEE Trans, on Circuit and Systems for Video Technology,2005 ,15 (2 )：243-255.

4.考虑到水平、垂直、右上、左上4 个方向的笔画，在每个方向都生成了一个边

缘图，并结合统计学特征，利用 K 均值聚类将图像像素划分

为背景和文本候选区域

LIU X,SAMARABANDU J. Multisccale edge-based text extraction from complex images [C ] // International Conference on Multimedia and Expo. IEEE,2006 ： 1721-1724.

5.利用文本向背景过渡时亮度和色饱和度数值呈现指数或对数函数的变化这一

特点生成颜色转换图并得到候选文本框，然后使用局部二元模型(Local Binary Pattern，LB P )修正结果。

KIM W J,KIM C. A new approach for overlay text detection and extraction from complex video scene [J]. IEEE Transactions on Image Processing, 2009,18(2) ： 401-411.

6.一种基于Canny算子的场景文本检测算法，算法考虑到图像边缘与文本之间的相似性，使用双阈值和滞后跟踪检测文本。

CHO H,SUNG M,JUN B. Canny Text Detector： Fast and robust scene text localization algorithm [C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016 ： 3566-3573.

基于边缘的算法在背景复杂度不高的情况下比较有效，然而在阴影和照度的影响下，提取好的边缘轮廓非常困难。（可以以此为出发点进行初步尝试）

2.基于纹理的算法（运算速度慢，实用性差）

将文本区域视为特殊的纹理，用图像纹理特征判定像素点或者像素块是否是文本

纹理分析的方法通常采用高斯滤波、小波分解、傅里叶变换、离散余弦变换(Discrete Cosine Transform，DCT )和LBP 等方法来提取纹理特征

1.有效地检测出自然场景中各类语种的文本区域。根据书写笔画的规则，该算法选择了 3 种不同的纹理特性来描述多语言文本:梯度方向直方图（Histogram of Gradient，H O G )、平均梯度（Mean of gradi-ents，M G )和 L B P ;然后运用一个级联分类器联合这3 个纹理特性检测定位文本区域

ZHOU G,LIU Y,MENG Q,etal. Detecting multilingual text in natural scene [C ]//International Symposium on Access Spaces(ISAS 2011). IEEE,20 11： 116-120.

2.基于角点检测的算法，通过视频帧之间角点的相似性来检测文本区域

BERTINI M,COLOMBO C,BIMBO A D. Automatic caption localization in videos using salient points [C]//IEEE International Conference on Multimedia and Expo. 2001： 68-71.

3.利用一种基于垂直、水平、左对角线、右对角线这4 个方向的内插滤波器来进行文本检测

SATOT,KANADE T,HUGHES E K,e t al. Video OCR for digital news archive [C] // International Workshop on Content-Based Access of Image and Video Libraries. IEEE, 1998： 52-60.

4.在 JPEG/M P E G 压缩域中提出一种基于D C T 特征的文本定位算法，算法将检测到的水平空间强度变化大的图像块作为文本区域，并通过形态学操作聚集这些区域，最后利用频谱能量阈值进行验证

ZHONG Y,ZHANG H JAN A K. Automatic caption localization in compressed video [ J ] . IEEE Transactions on Pattern Analysis &• Machine Intelligence, 2000,22(4) ： 385-392.

5.利用 D C T 特征和 Hsher判别分析来定位场景图像

GOTO H,TANAKA M. Text-Tracking wearable camera system for the blind [C] // International Conference on Document Analysis and Recognition. IEEE Computer Society, 2009： 141-145.

6.基于S V M 和纹理模板的算法进行文本定位，被分类为正值的像素通过均值移位算法合并成文本区域

KIM K I, JUNG K,KIM J H. Texture-Based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm [J ] . IEEE Transactions on Pattern Analysis &• Machine Intelligence,2003,2 5 ( 1 2 )：1631-

1639.

7.一种新的快速文本区域检测定位算法，该算法使用了基于学习的区域滤波和基于由粗到精的验证算法。不同于仅仅使用基于学习的分类器进行滤波和分类，该算法选择有区别的特性，分别采用一个增强的分类器和一个多项式分类器进行粗区域滤波和细区域的验证。在验证阶段，作者评估了 5 个被广泛使用的特性：H O G ，L B P，DC T ，Gabor和小波。

PAN Y F,LIU C L,HOU X. Fast scene text localization by learning-based filtering and verification [C]//I7th IEEE International Conference on Image Processing ( ICIP 2010). IEEE,2010：2269-2272.

8.提出了一种基于 K -means的算法来识别文本像素，该方法将文本看成一种特殊的纹理，并在 3 个不同尺度上使用9 个二阶高斯导数来寻找可能的文本区域。

WU V,MANMATHA R,RISEMAN E M. Digital Libraries by recognition of superimposed caption Multimedia Systems [ J ] .Proc of 2nd ACM International Conference, 1999 ,7 (5)： 385-395.

9.对图像进行小波变换，边缘检测后采用滑动窗口将图像分成小块，将一种新的稀疏表示模型用于纹理分割和特征提取，再利用学习型判别字典对候选文本区域进行修正

ZHAO M,LI S T,KWOK J. Text detection in images using sparse representation with discriminative dictionaries [ J ] . Image and Vision Computing,20 10 ,28： 1590-1599.

10.基于Harris角点对文本进行检测，生成角点响应图，利用基于块的阈值法得到候选文本区域，进行连通区域分析后用投影法得到文本行。

SUN L,LIU G Z,JAN X M,et al. A novel text detection and localization method based on corner response[C]//Proc of ICME.2009:90-393

在复杂背景下可以准确地检测定位文本区域，但运行速度相对较慢，且对文本的对齐和方向敏感。

3.基于连通区域的算法（麻烦，鲁棒性差不推荐）

基于连通区域的算法采用自底向上的结构，将图像中的小区域合并成连续的较大区域，直到图像中所有区域被识别。基于连通区域的方法通过边缘检测或颜色聚类直接分割候选文本区域。

1.运用条件随机场(Conditional Random Field，CR F )给连通区域贴上“文本”和“非文本”的标签

ZHANG H,LIU C,YANG C,et al. An improved scene text extraction method using conditional random field and optical character recognition[C]//International Conference on Document

Analysis and Recognition(ICDAR 2011). IEEE,20 11：708-712.

2.运用了 C R F 模型，在文章中提出一种两步迭代的C R F 算法，即置信度推理阶段和O C R 滤波阶段。第一个C R F 迭代旨在找出确定的文本连通区域，并将不确定的连通区域送入第二个迭代;第二个迭代通过O C R判定不确定连通区域，并过滤虚警连通区域。

PAN Y,HOU X,LIU C. A hybrid approach to detect and localize texts in natural scene images [ J ] . IEEE Transactions on Image Processing,20 11 ,2 0： 800-813.

3.一种基于连通区域的由粗到精的算法来检测定位场景图像中的文本。算法将彩色图像分隔成均匀的颜色层，利用块邻接图(Block Adjacency Graph，BA G )分析颜色层中的每个连通区域块。在粗定位阶段，提出一种调整与分析的方案来定位所有颜色层中可能的文本区域。基于区域的方法通常假设文本区域的像素都有相同的颜色，根据字符像素颜色的一致性和字符颜色与背景存在较大的对比度等特征对图像进行分割。

WANG K,KANGAS J A. Character location in scene images from digital camera [ J ] . Pattern Recognition, 2003, 36 ( 1 0 )：2287-2299.

4.用字符红色的特性来获得文本和背景间的高对比边缘。

AGNIHTORI L, DIMITROVA N. Text detection for video analysis [C]//International Workshop on Content-Based Access of Image and Video Libraries. IEEE, 1999 ： 109-113.

5.通过检测高对比度视频帧中的“统一颜色”块来检测定位文本区域。

HUA X S, YIN P,ZHANG H J. Efficient video text recognition using multiple frame integration [J]. Proceedings of International Conference Image Processing,2004 ,11(2 ) ： 22-25.

6.用统计模型来实现连通区域算法，例如在成对空间特征上使用AdaBoost分类器来学习连通区域算法模型，统计模型的使用显著提高了连通区域算法的适应性。（两篇参考论文）

PAN Y F , HOU X, LIU C L. A hybrid approach to detect and localize texts in natural scene images [J] . IEEE Transactions on Image Processing, 2011,20(3 ) ： 800-813.

KOO H I,KIM D H. Scene text detection via connected component clustering and nontext filtering [M]. IEEE Press,2013.

分割的候选文本区域的数量相对较少，基于连通区域的算法具有计算复杂度低的优点，并且定位出的文本区域可直接进行识别。然而，基于连通区域的算法需要事先知道文本位置和尺寸等先验知识，这在实际应用中通常是无法满足的。另外，由于在进行分析比较时背景中的非文本连通区域很容易与文本区域混淆，因此设计一个快速且可靠的连通区域分类器十分困难。

4.基于笔划特征的算法（背景不复杂时完全可以使用，且适用大部分语言）

文本可以看作是由各方向笔画元素结合构成的模型，通过笔画元素的组合与分布能够提取文本的特征。一个区分文本与场景中其他元素的特征是其近乎恒定的笔画宽度，这个特征可以用来检测包含文本的区域。

1.笔画滤波器（Stroke filter，SF)，文本的边缘(梯度)特征、连通区域、纹理、投影等为文本的外部特征，而笔画为文本的内在特征，因此笔画不仅适用于所有语言，还能检测手写体文本。文章定义了类笔画特征

JUNG C,LIU Q,KIM J. A stroke filter and its application for text localization [J]. Pattern Recognition Letters, 2 0 09 ,3 0 (2)：114-122.

2.基于笔画滤波器的笔画响应图，即分别提取细笔画和粗笔画来定义不同的区域，最后用基于支持向量机S V M 的方向梯度直方图H O G 分类器消除噪声并检测结果

GUI T Y , SUN J , NAOI S. A fast caption detection method for low quality video images [C]//International Workshop on Document Analysis Systems (I APR 2012). 2012.

3.笔画宽度变换SWTCStroke Width Transform)。这种图像文本定位算法对文本的大小、方向、颜色、字体和语种不敏感

该算法首先通过Canny算子进行边缘检测，提取图像的边缘及边缘梯度方向;然后遍历边缘图像的每一个像素，根据边缘像素的梯度方向，查找其梯度方向相反、角度大致一样的像素形成像素对，像素对间的宽度即为当前像素的笔画宽度；最后根据笔画宽度的变化来检测文本。（对高分辨率场景文本检测定位显示出很强的竞争力，在与适当的学习方法或时空分析相结合后，性能更好。）

EPSHTEIN B,OFEK E,WEXLER Y. Detecting text in nature scenes with Stroke Width Transform[C]//Proceedings of Computer Vision and Pattern Recognition ( CVPR 2010). IEEE,2010：2963-2970.

CHOWDHURY A R,BHATTACHARYA U,PARUI S K.Scene text detection using sparse stroke information and MLP[C ] //International Conference on Pattern Recognition. 2012：294-297.

4.Mosleh等人[48]引入基于带状的边缘检测器来改进S W T ，该边缘检测器增强了文本边缘并有效地消除了噪声和叶面边缘，适用于低分辨率文本检测定位。

MOSLEH A, BOUGUILA N, HAMZA A B. Image text detection using a bandlet-based edge detector and stroke width transform [^//British Machine Vision Conference. 2012.

S W T 算法能够检测大部分文本区域，但当图像背景复杂时会产生严重的虚警，如树叶、条纹、灌木丛、标志、房屋等往往会被误认为候选文本区域

5.基于深度学习的算法

1.将场景文本检测作为语义分割问题，以整体方式检测文本。算法直接在整体图像上运行，并产生全局像素预测图，随后使用一个完全卷积网络(FC N )检测文本。算法可同时检测场景图像中的水平、多方向和扭曲的文本。

YAO C BAI X SANG N et al. Scene text detection via holistic，multi-channel prediction[J]. arXiv：1606. 09002,2016.

2.在文本区域定义了一个名为深度文本(DeepText，DT )的统一框架，并通过一个完全的卷积神经网络(Convolutional Neural Network，CN N )对场景图像文本进行检测。

首先，作者提出了起始区域提议网络(Region ProposalNetw〇rk，RP N )，并设计了一套文本特征先验边界框来提高召回率;然后，提出一个强大的文本检测网络，网络嵌入了模糊文本类另1KAmbiguous Text Category，AT C )信息和多级感兴趣的区域集合(Multilevel Region-of-interest Pooling，M L -R P );最后，使用迭代边界框投票方案提高召回率，并引入一个过滤算法来删除每个文本实例中冗余的内部和外部边界框。

ZHONG ZJIN L,ZHANG S ,e t al. Deep Text： A unified framework for text proposal generation and text detection in natural images[J]. Architecture Science, 2015(12) ： 1-18.

3.基于字符组的对称性，从自然场景图像中直接提取文本行。

ZHANG Z,SHEN W ,YAO C, et al. Symmetry-based text line

detection in natural scenes [C]// Computer Vision and Pattern

Recognition. IEEE, 2015 ： 2558-2567.

4.基于级联卷积文本网络（Cascaded Convolutional Text Network， CC T N ) 的场景文本检测算法。C C T N 连接了两个自定义的卷积网络，用于由粗到精的文本定位。该算法对于多语言、多方向的文本具有强健的性能

HE T HUANG W QIAO Y et al. Accurate text localization in natural image with cascaded convolutional text network [ J ] .Computer Vision and Pattern Recognition, arXiv： 1603. 09423,

2016.

5.一种针对文本的卷积神经网络(Text-attentional Convolutional Neural Network, Text-C N N )算法来检测场景图像文本，该算法特别关注文本区域的特征，开发出一种新的学习机制，通过多层次丰富的监督信息对Text-C N N 进行训练。监督信息包含文本区域掩码、字符标签和文本/非文本的二值化信息，这些信息使得Text-C N N 具有强大的检测模糊退化文本的性能，并且增强了复杂背景图像的鲁棒性。

HE T, HUANG W,QIAO Y,e t al. Text-Attentional convolutional neural network for scene text detection [J] . IEEE Transactions on Image Processing, 2016,25(6) ： 2529-2541.

需要选取样本进行训练，因此训练样本集与测试样本集的相似度不高时所取得的效果也不够理想。好在有很多公共数据集供咱们训练用

6.其他综合性算法

1.够有效检测自然场景图像中任意方向文本的实际检测系统。作者利用S W T 的旋转不变特性和一个二级分类方案来区别文本和非文本，因此这个系统能够有效地检测任意方向的文本

YAO C,BAI X. Detecting texts of arbitrary orientations in natural images [C ] //Proceedings of Computer Vision and Pattern Recognition CCVPR 2012). IEEE,2012： 1083-1090.

2.合了基于区域和基于连通分量的方法。首先，设计一个区域检测器来估测图像金字塔中每一层的文本区域，并利用尺度自适应二值化生成文本区域;然后，在区域分析阶段利用C R F 模型滤除非文本区域;最后，通过最小跨越树聚集文本。

PAN Y F,ZHU Y,SUN J ,e t al. Improving scene text detection by scale adaptive segmentation and weighted CRF verification[C] // International Conference on Document Analysis and Recognition (ICDAR 2011). IEEE,20 11：759-763.

3.基于最大稳定极值区域(Maximally Stable Extremal Re-gion，MS E R )的文本定位。优点在于使用M S E R 作为文本候选区域的有效性。文本区域与背景通常具有显著的颜色对比度，且倾向于形成均匀的颜色区域，因此自适应检测稳定颜色区域的M S E R 算法为定位文本提供了可行的解决方案

4.利用二维张量投票来鉴定文本区域和非文本区域。通过张量投票来提取文本行信息，降低了基于区域的文本检测算法中的误报率。

NGUYEN T D,PARK J,LEE G. Tensor voting based text localization in natural scene images [J]. IEEE Signal Processing Letters,2010 ,17(7 ) ：639-642.

五、文本字符的增强与分割

1.Otsu

OHTSU N. A threshold selection method from gray-level histograms [J]. IEEE Transactions on Systems Man&Cybernetics,2 0 0 7 ,9 ( 1 )：62-66.

2.Bernsen

BERNSEN J. Dynamic thresholding of gray-level images [C]//International Conference on Pattern Recognition. 1986.

3.Niblack

NIBLACK W. An introduction to digital image processing [M].Strand berg Publishing Company, 1985.

4.Sauvola

SAUVOLA J , PIETIKAlNEN M. Adaptive document image binarization [J]. Pattern Recognition, 2000,33(2) ： 225-236.

全局阈值法简单但由于文本图像一般都存在背景复杂、光照不均匀的特点，因此单一的全局阈值法很难得到理想的分割效果，会出现细节丢失等现象

局部阈值法虽然能够根据局部特性自适应选取阈值，但由于过分夸大图像细节，会造成伪影、断笔等现象。由于文本边界处的像素通常与背景融合，因此很难为退化的文本图像选择可靠的阈值。

5.高斯混合模型对文本图像进行二值化操作

YE Q,GAO W, HUANG Q. Automatic text segmentation fromcomplex background [ C ] //International Conference on ImageProcessing. IEEE,2004：2905-2908.

WANG K,BABENKO B,BELONGIE S. End-to-end scene textrecognition [C] // IEEE International Conference on ComputerVision(ICCV 2011). Barcelona,Spain,20 11： 1457-1464.

WEINMAN J J,BUTLER Z,KNOLL D,et al. Toward integratedscene text reading [J]. IEEE Transactions on Pattern Analysis &•Machine Intelligence,2014,36(2)：375-87.

6.将MRF(Markov Random Held，MRF ) 运用到文本图像二值化中，将图像中的每个像素表示为M R F 中的随机变量，并在这些变量中引入新的能量函数，这里的能量函数采用高斯混合模型。最后，每个变量由能量函数标记为前景或背景

MISHRA A, ALAHARI KJAWAHAR C V. An MRF model for binarization of natural scene text [C] // International Conference on Document Analysis and Recognition. IEEE Computer Society, 2011 ： 11-16.

一种分为两步的C R F 场景图像二值化方法，算法基于层次空间结构来标记连续的文本区域，进而分割字符。

LEE S,KIM J H. Integrating multiple character proposals for robust scene text extraction [ J ] . Image and Vision Computing,2 0 1 3 ,3 1 ( 1 1 )：823-840.

7.改进的自适应文档图像二值化方法。在照度不均匀时具有良好的鲁棒性，能够较少地丢失笔划并有效地保留边缘信息

ZHOU S,LIU C,CUI Z. An improved adaptive document image binarization method [C] // 2nd International Congress on Image and Signal Processing(CISP’ 09). IEEE，2009:1-5.

8.两种关于扭曲文本的二值化方法，一个使用映射函数，另一个使用双二次变换函数。算法利用Hough变换和贝塞尔曲线近似法检测标记边界线。实验结果表明，该算法可以正确恢复原始标签的矩形区域。

LE H P,LEE G S. Text correction in distorted label images by applying biquadratic transformation [C ] // International Conference on Signal and Image Processing Applications (ICSIPA).IEEE, 2009： 326-329.

六、文字识别

七、性能评估

文本检测中主要的性能指标有查全率r (recall)、查准率p(precision)和 f 指数(F measure)等。这些指标来源于信息检索中的评价参数，定义如下

C 为正确检测出来的文本区域的数量，T 为实际文本区域的数量，E 为检测出来的文本区域数量(包含虚警区域）。f指数是查全率和查准率的加权调和平均，其中α为加权因子。

八、常见文字检测框架（含代码）

1.DBNet

Real-time Scene Text Detection with Differentiable Binarization

通过一个近似于阶跃函数的二值化函数使得分割网络在训练时学习文本分割的动态阈值，提升模型精度

GitHub - MhLiao/DB: A PyTorch implementation of "Real-time Scene Text Detection with Differentiable Binarization".

2.CTPN

Detecting Text in Natural Image with Connectionist Text Proposal Network

该模型包括三部分：卷积层、Bi-LSTM层、全连接层

GitHub - eragonruan/text-detection-ctpn: text detection mainly based on ctpn model in tensorflow, id card detect, connectionist text proposal network

3.EAST

EAST: An Efficient and Accurate Scene Text Detector

GitHub - argman/EAST: A tensorflow implementation of EAST text detector

九、常见文字识别框架

基于CTC文字识别的方法

CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

基于CTC最典型的算法就是CRNN（Convolution Recurrent Neural Network），它的特征提取部分使用主流的卷积结构，常用ResNet、VGG、MobileNet。CRNN引用双向LSTM来增强上下文建模，它可以有效提取图片上下文信息，最终将输出特征序列输入到CTC模块，直接解码序列结果。

由下至上：卷积层（使用深度CNN，对输入图像提取特征）循环层（使用BLSTM对特征序列进行检测，输出prediction label分布）转录层（使用CTC损失，将从循环层获取的一系列标签分布转换为最终最终的标签序列）

2.基于Attention文字识别方法

ASTER

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

GitHub - ayumiymk/aster.pytorch: ASTER in Pytorch

其他Attention文字识别方法总结

十、公共数据集

其中，COCO-Text数据库是基于M S C O C O 数据库的一种新的大规模数据库，包含复杂的自然场景图像，一共有 63686张图像，145859个文本实例，3个精细的文本属性。文本实例分为机器印刷和手写文字、清晰和模式的文字、英文和非英文样本。数据库围绕3 个任务进行构造:文本定位、字符识别、端到端识别。

相较于MSAR-TD数据量庞大，符合我们做AR中文本提取的要求