OCR（Optical Character Recognition，光学字符识别）问题

最新推荐文章于 2024-05-10 16:45:00 发布

kafkabalu

最新推荐文章于 2024-05-10 16:45:00 发布

阅读量397

点赞数

文章标签：深度学习目标检测计算机视觉

本文链接：https://blog.csdn.net/qq_43526269/article/details/129410629

版权

**应用场景：**在这个过程中由于场景的不确定性，比如：图片背景极其丰富、亮度不均衡、光照不均衡、残缺遮挡、文字扭曲、字体多样等等问题，会带来极大的挑战。

自然场景中文本具有多样性：文本检测受到文字颜色、大小、字体、形状、方向、语言、以及文本长度的影响；
复杂的背景和干扰；文本检测受到图像失真，模糊，低分辨率，阴影，亮度等因素的影响；
文本密集甚至重叠会影响文字的检测；
文字存在局部一致性，文本行的一小部分，也可视为是独立的文本；

技术路线： 在这里插入图片描述

其中OCR识别的关键路径在于文字检测和文本识别部分
基于icdar2015数据集下进行的训练。
先使用xx进行文本检测，接着使用CRNN（卷积递归神经网络）即DCNN和RNN的组合，用于对文字进行识别。
以下是CRNN的网络结构图：
在这里插入图片描述

文本检测常见算法

文本检测的任务是定位出输入图像中的文字区域。
通过对目标检测算法进行改进，如CTPN。但是文本检测与目标检测在目标信息以及任务本身上仍存在一些区别，如文本一般长宽比较大，往往呈“条状”，文本行之间可能比较密集，弯曲文本等，因此又衍生了很多专用于文本检测的算法，如EAST、DBNet等等。
目前流行的文本检测算法：

基于回归的文本检测算法：借鉴物体检测算法，通过设定anchor回归检测框，或者直接做像素回归，适用于规则形状的文本检测。如CTPN对水平文本的效果好，对倾斜、弯曲文本的效果差。因为他是基于回归的，所以框框都是规则的类型
CTPN是基于目标检测的算法做了一些改进，使得框框的宽相同，高不同
基于分割的文本检测算法：适用于不规则形状的文本检测，如Pixellink、DB，虽然效果会好一点，但是可能会导致像素聚类，缺点就是后处理会比较复杂。

文本识别常见算法

文本识别的任务是识别出图像中的文字内容，一般输入来自于文本检测得到的文本框截取出的图像文字区域。
一般可以根据待识别文本形状分为规则文本识别和不规则文本识别两类。

规则文本识别算法：根据解码方式的不同可以大致分为基于CTC和Sequence2Sequence两种，将网络学习到的序列特征 转化为 最终的识别结果 的处理方式不同。
CNN模块提取
RNN模块提取序列特征
CTC进行解码，CTC的主要作用是引入了一个没有意义的空字符。因为时序特征是固定的，但是我们到底要识别出多少个字是不固定的。从固定的时序特征到固定的文本结果就是通过CTC来解决的。**缺点：**每一个时序特征是单独解码的，没有利用到上下文的信息。
不规则文本识别算法：STAR-Net等方法通过加入TPS等矫正模块，将不规则文本矫正为规则的矩形后再进行识别；

在检测之后：OCR结果+后处理是一种常用的结构化方案，如快递单、发票信息的内容抽取，但流程往往比较复杂，并且后处理需要精细设计，泛化性也比较差。
PP-OCR系统pipeline示意图
可以看到，除了输入输出以外，整个核心框架包含了三个模块，分别是：文本检测模块、检测框矫正模块、文本识别模块。

文本检测模块：核心是一个基于XX检测算法训练的文本检测模型，检测出图像中的文字区域；
检测框矫正模块：将检测到的文本框输入检测框矫正模块，在这一阶段，将四点表示的文本框矫正为矩形框，方便后续进行文本识别；另一方面会进行文本方向判断和校正，例如如果判断文本行是倒立的情况，则会进行转正，该功能通过训练一个文本方向分类器实现；
文本识别模块：最后文本识别模块对矫正后的检测框进行文本识别，得到每个文本框内的文字内容，该过程使用了文本识别CRNN算法。