OCR论文综述(含文字识别、文本检测、端到端和数据集合)

OCR综述概览

主要分为四个部分
文字识别、文本检测、端到端文字识别和数据集的介绍

1. 文字识别

指标为f1-score

Conf.

Net

Title

SVT

IIIT5K

ICDAR13

TPAMI2015CRNN

An end-to-end trainable neural network for image-based sequence

recognition and its application to scene text recognition

0.8080.7820.867
CVPR2016RARERobust scene text recognition with automatic rectification0.8190.8190.886
ICCV2017FANFocusing Attention: Towards Accurate Text Recognition in Natural Images0.8590.8740.933
TPAMI2018ASTERASTER: An Attentional Scene Text Recognizer with Flexible Rectification0.9360.9340.918
PR2019MORANMORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition0.8830.912

0.924

CVPR2020SRNTowards Accurate Scene Text Recognition With Semantic Reasoning Networks0.9150.9480.955

1、CRNN

  • 首先CNN提取图像卷积特征
  • 然后LSTM进一步提取图像卷积特征中的序列特征
  • 最后引入CTC解决训练时字符无法对齐的问题

在这里插入图片描述
2、RARE

RARE是一个深度神经网络,包括一个空间变换网络Spatial Transformer Network (STN)和一个序列识别网络Sequence Recognition Network (SRN)

两个网络同时用BP算法进行训练。网络结构如下:
在这里插入图片描述

提出了一个新颖且对不规则文本具有鲁棒性的场景文字识别方法;
采用了基于注意力模型(attention-based)的STN框架。传统的STN只在普通的卷积神经网络中测试;
在SRN编码器中使用循环卷积结构。

3、FAN

  • 提出注意力漂移的概念,解释了现有注意力方法在复杂/低质量自然图像上性能较差的原因。
  • 开发了一种 FAN新方法来解决注意力漂移问题,这种方法在大多数现有方法都有的注意力模块之外,还引入了一个全新的模块——聚焦网络(FN),该网络可以使 AN偏离的注意力重新聚焦在目标区域上。
  • 采用强大的基于 ResNet 的卷积神经网络,以丰富场景文本图像的深度表征。
  • 在多个基准上实施大量实验,展示了我们的方法与现有方法相比的性能优越性。

在这里插入图片描述
4、ASTER

本文方法主要解决不规则排列文字的文字识别问题,论文为RARE的改进版
在这里插入图片描述
在这里插入图片描述

5、MORAN

面向不规则及通用场景文本。MORAN由矫正子网络MORN和识别子网络ASRN组成,在矫正子网络MORN中设计了一种新颖的像素级弱监督学习机制来进行不规则文本的形状纠正,以降低不规则文本的识别难度。矫正子网络和识别子网络可端到端联合训练,也不需要字符位置或像素级分割等监督信息,使得网络的训练大大简化。
在这里插入图片描述

  • 修正网络MORN采用弱监督的方式进行
  • 提出了fractional pickup方法进一步提升attention的灵敏度
  • 提出了curriculum learning strategy用于网络整体训练

6、SRN

由四部分组成:基础网络Backbone、并行的视觉特征提取模块(PVAM)、全局语义推理模块(GSRM) 和视觉语义融合的解码器(VSFD)
在这里插入图片描述

2. 文本检测

指标为f1-score

Conf.NetTitleICDAR13ICDAR15CTW1500

ECCV2016

CTPN

Detecting Text in Natural Image with Connectionist Text Proposal Network0.82150.60850.569

CVPR2017

SegLink

Detecting Oriented Text in Natural Images by Linking Segments0.8530.75


CVPR2017

EAST

EAST: An Efficient and Accurate Scene Text Detector
0.80720.604

arXiv2018

PSENet

Shape Robust Text Detection with Progressive Scale Expansion Network
0.87210.822

AAAI2019

DBNet

Real-time Scene Text Detection with Differentiable Binarization
0.8470.834

CVPR2021

FCENet

Fourier Contour Embedding for Arbitrary-Shaped Text Detection


0.8620.855
1、CTPN

只能检测水平文本,通过Faster RCNN+LSTM预测固定宽度的文本候选框,在后处理部分再将这些小文本段连接起来,得到文本行。

  • 将文本检测任务转化为一连串小尺度文本框的检测;
  • 引入RNN提升文本检测效果;
  • Side-refinement(边界优化)提升文本框边界预测精准度。

在这里插入图片描述
在这里插入图片描述

2、 SegLink

  • 与CTPN思想类似,都是先找出文本行的一部分,然后再连接所有的部分,组成一个完整的文本行;
  • 在SSD基础上加入了旋转角度的学习;
  • 在小部分文本框之前用连接线(相邻框的中点连线)来表示属不属于同一个文本框,也是用网络来学习;
  • 使用融合规则将各个阶段的框信息和线信息进行融合,组成文本行。

在这里插入图片描述

3、 EAST

  • 提出了一个由两阶段组成的场景文本检测方法:全卷积网络阶段和NMS阶段。
  • 该pipeline可灵活生成word level或linelevel上文本框的预测,预测的几何形状可为旋转框或水平框。
  • 算法在准确性和速度上优于最先进的方法。

在这里插入图片描述

4、PSENet

主干 resnet

  • 是一个基于像素分割的方法,能够精确地定位任意形状的文本实例;
  • 提出了渐进式扩展算法,即使两个文本实例离得很近也可以分开,从而保证文本实例的准确位置;
    从最小尺度的kernels开始扩展,最小的kernels可以把紧靠的文本实例分开;逐渐扩展到更大的kernels;直到扩展到最大的kernels,组成最终的结果。

在这里插入图片描述
5、DBNet

传统的基于分割的文本检测的后处理方法比较复杂,提出差分二值化

  • 在基准数据集上有良好的表现,其中包括水平、多个方向、弯曲的文本。
  • 比之前的方法要快很多,因为DB可以提供健壮的二值化图,从而大大简化了后处理过程。
  • 使用轻量级的backbone(ResNet18)也有很好的表现。
  • DB模块在推理过程中可以去除,因此不占用额外的内存和时间的消耗。

在这里插入图片描述
6、FCENet

着重于对任意形状文本包围框的表示方法建模,提出了可以精确地逼近任何封闭曲线的傅里叶轮廓嵌入方法和针对此文本框表达方法设计的FCENet。

该算法在高度弯曲文本上具有优异的检测性能,且具有良好的泛化能力。在没有额外数据集参与预训练的情况下,在CTW1500、Total-Text上的检测效果达到了SOTA。

在这里插入图片描述

3. 端到端文字识别

  • 由于检测和识别是高度相关的,因此将检测和识别统一到一个模型里面,就使得图像的feature可以被共享利用。
  • 检测和识别这两种任务可以是互补的,更好的检测结果可以提升识别的准确率,识别的信息也可以被用来精修检测的结果。
Conf.NetTitleICDAR13ICDAR15
ICCV2017
Towards End-to-end Text Spotting with Convolution Recurrent Neural Network0.8459
CVPR2018FOTSFOTS: Fast Oriented Text Spotting with a Unified Network0.84770.6533
ECCV2018Mask TextSpotterMask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes0.8650.624
ICCV2019CharNetConvolutional Character Networks
0.7108
ECCV2020Mask TextSpotterV3Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting
0.742
1、

在这里插入图片描述
a.end-to-end方式训练出来的模型可以学习到更丰富的图像特征,并且这种特征可以被两种不同任务所共享,可以有效的节省时间。
b.论文中提出了一种全新的region feature抽取方法。这种feature抽取方法可以很好的兼容文本bbox原始长宽比以及避免图像的扭曲,而且ROI pooling可以生成具有不同长度的feature maps。
c.提出了一种类似课程学习策略的方法用一种逐渐增加图像复杂性的数据集来训练模型。

2、FOTS
在这里插入图片描述

  • End-to-end框架的解决了角度文本端到端识别的问题;
  • RoI Rotate模块的运用,桥接了detection和recogniton
  • 模型小、速度快、效果好

3、Mask TextSpotter

Mask TextSpotter利用简单且平滑的端到端学习过程,通过语义分割获得精确的文本检测和识别。此外,它在处理不规则形状的文本实例(例如,弯曲文本)方面优于之前的方法。
在这里插入图片描述
识别部分只能识别26个字母+10个数字

4、CharNet

整个网络分为两个大的分支,上面的分支用来进行字符检测和识别(整体);下面的分支用来检测字符中的每一个文本(单个文字或字符)。
在这里插入图片描述

5、Mask TextSpotterV3
在这里插入图片描述

4. 数据集

数据集数据语言 大小简要介绍标注格式下载地址
ICDAR_2013语言: 英文 train:229 test:233

水平文本

x1 y1 x2 y2 text下载链接.
ICDAR_2015语言: 英文 train:1000 test:500

倾斜文本

x1,y1,x2,y2,x3,y3,x4,y4,text下载链接.
ICDAR2017-MLT语言: 混合 train:7200 test:1800

多语言文本

x1,y1,x2,y2,x3,y3,x4,y4,text下载链接. 提取码: z9ey
ICDAR2017-RCTW语言: 混合 train:8034 test:4229

主要是中文

x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,text下载链接
天池比赛2018语言: 混合 train:10000 test:10000

合成图像,产品描述,网络广告

复杂排版,密集的小文本或多语言文本,水印等

x1,y1,x2,y2,x3,y3,x4,y4,text检测。 识别
ICDAR2019-MLT语言: 混合 train:10000 test:10000

水平文本

每个连续的1000个图像包含一种主要语言的文本

x1,y1,x2,y2,x3,y3,x4,y4,语言类别,text下载链接. 提取码: xofo
ICDAR2019-LSVT语言: 混合 train:30000 test:20000

中文街景图像

json格式标签下载链接
ICDAR2019-ReCTS语言: 混合 train:20000 test:5000

餐厅招牌上的中文文本

json格式标签下载链接
ICDAR2019-ArT语言: 混合 train:5603 test:4563

包含水平、多方向和弯曲等多种形状的文本

json格式标签下载链接
Synth800k语言: 英文 80k

每个文本实例均使用文本字符串、字级和字符级边界框进行注释

基于字符标注下载链接
360万中文数据集语言: 中文 360k

每个样本固定10个字符,字符随机截取自语料库中的句子

每张图片由10个字符构成下载链接. 提取码:lu7m
中文街景数据集CTW语言:中文 32285

包含平面文本,凸起文本,城市文本,农村文本,

低亮度文本,远处文本,部分遮挡文本

基于字符标注的中文街景图片下载链接
百度中文场景文字识别语言: 混合 29万

由街景图片中的文字行区域(如店铺标牌、地标等)截取出来而形成

图像经过一些预处理:将文字区域利用仿射变化,等比映射为一张高为48像素的图片


下载链接
MSRA-TD500语言: 中英文 Training:300 Test:200
  • 多方向文本检测

  • 大部分文本都在引导牌上

.gt格式标签下载链接
Total-Text语言: 英文 Training:1255 Test:300

弯曲文本


下载链接
  • 20
    点赞
  • 103
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
综述1:OCR自然场景文字识别的现状和发展趋势 自然场景文字识别OCR)是计算机视觉中的一个重要领域,旨在从自然图像中自动检测和识别文本。随着数字化时代的到来,OCR技术在许多领域中发挥着重要作用,例如图像搜索、自然场景的车牌识别、智能制造、智能交通等。然而,由于自然场景的复杂性,OCR技术仍面临着许多挑战,例如光照变化、噪声、倾斜、不同字体等。 当前,OCR自然场景文字识别的主要研究方向包括深度学习模型、数据增强和迁移学习等。其中,深度学习模型已成为OCR自然场景文字识别的主流方法。最近几年,许多基于深度学习OCR方法已经被提出,例如卷积神经网络(CNN)、循环神经网络(RNN)、注意力机制和半监督学习等。此外,数据增强也是提高OCR自然场景文字识别准确率的重要手段之一。通过对训练集进行旋转、平移、缩放、加噪声等操作,可以扩展训练集,提高模型的鲁棒性。迁移学习也是一种常用的方法,它可以将预训练的模型应用于OCR自然场景文字识别任务中,从而提高模型的泛化能力。 未来,OCR自然场景文字识别的研究方向可能包括更加高效和准确的OCR算法、更加智能的OCR系统、更加丰富和多样化的数据集以及更加适合实际应用场景的OCR技术等。 综述2:OCR自然场景文字识别的基本方法和技术 OCR自然场景文字识别是计算机视觉中的一个重要领域,它的基本任务是从自然图像中自动检测和识别文本OCR自然场景文字识别通常包括以下步骤:文本检测文本定位、文本分割和文本识别。文本检测是指从自然图像中检测文本的位置和大小,文本定位是指确定文本的边界框,文本分割是指将文本分割为单个字符或单词,文本识别是指将单个字符或单词识别为文本OCR自然场景文字识别的基本方法和

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值