OCR基础篇

最新推荐文章于 2024-07-01 21:42:44 发布

l15201

最新推荐文章于 2024-07-01 21:42:44 发布

阅读量3.4k

点赞数

文章标签： python ocr

本文链接：https://blog.csdn.net/l15201/article/details/118855789

版权

1、什么是OCR？

OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容，文字往往包含更强的语义信息，因此对图像中的文字提取和识别具有重大意义。

文字识别是计算机视觉研究领域的分支之一，而且这个课题已经是比较成熟了，并且在商业中已经有很多落地项目了。虽然很多企业都有能力开始从事OCR的各种任务，对OCR技术还没到达智能影响生活，但是对生活也有了很大的改进。

2、OCR的应用场景

根据识别场景，可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。通用OCR可以用于更复杂的场景，也具有更大的应用潜力。但由于通用图片的场景不固定，文字布局多样，因此难度更高。根据所识别图片的内容，可将场景分为清晰且具有固定模式的简单场景和更为复杂的自然场景。自然场景文本识别的难度极高，原因包括：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也可能字体多样、字号字重颜色不一的问题。同时文字的识别和检测一直以来都是OCR的研究重点，针对不同需求，方法也是各不相同。

3、OCR的分类

如果要给OCR进行分类，我觉得可以分为两类：手写体识别和印刷体识别。这两个可以认为是OCR领域两个大主题了，当然印刷体识别较手写体识别要简单得多，我们也能从直观上理解，印刷体大多都是规则的字体，因为这些字体都是计算机自己生成再通过打印技术印刷到纸上。在印刷体的识别上有其独特的干扰：在印刷过程中字体很可能变得断裂或者墨水粘连，使得OCR识别异常困难。当然这些都可以通过一些图像处理的技术帮他尽可能的还原，进而提高识别率。总的来说，单纯的印刷体识别在业界已经能做到很不错了，但说100%识别是肯定不可能的，但是说识别得不错那是没毛病。

印刷体已经识别得不错了，那么手写体呢？手写体识别一直是OCR界一直想攻克的难关，但是时至今天，感觉这个难关还没攻破，还有很多学者和公司在研究。为什么手写体识别这么难识别？因为人类手写的字往往带有个人特色，每个人写字的风格基本不一样，虽然人类可以读懂你写的文字，但是机器缺很难。那为什么机器能读懂印刷体？因为印刷体是机器造出来的啊，那机器当然能读懂自己造的字体啦哈哈~其实上面也提到了，印刷体一般都比较规则，字体都基本就那几十种，机器学习这几十种字体并不是一件难事，但是手写体，每个人都有一种字体的话，那机器该学习多少字体啊？这就是难度所在。

4、OCR识别

OCR文字识别在目前有着比较好的应用，也出现了很多的文字识别软件，但软件是面向用户的。对于我们技术人员来说，有时难免需要在计算机视觉任务中加入文字识别，如车牌号识别，票据识别等，因此软件对我们是没用的，我们需要自己实现文字识别。

具体可以看下相关网站介绍

【文字识别】PaddleOCR实战和算法解读_梁瑛平的博客-CSDN博客

PaddleHub OCR实现文字识别_I_am_overflow的博客-CSDN博客

文字识别OCR开源框架的对比--Tesseract vs EasyOCR - CV技术指南（公众号） - 博客园 (cnblogs.com)

5、OCR检测

文字检测是文字识别过程中的一个非常重要的环节，文字检测的主要目标是将图片中的文字区域位置检测出来，以便于进行后面的文字识别，只有找到了文本所在区域，才能对其内容进行识别。但是当文字在图像中存在特定区域，即街边的广告牌、产品包装盒、设备上的说明、商标等等，存在着背景复杂、光线忽明忽暗、角度倾斜、扭曲变形、清晰度不足等各种情况，文字检测的难度更大。如下图

简单场景、复杂场景中常用的文字检测方法，包括形态学操作、MSER+NMS、CTPN、SegLink、EAST等方法，并主要以ICDAR场景文字图片数据集介绍如何使用这些方法，如下图：

6、总结

　在一些简单环境下OCR的准确度已经比较高了（比如电子文档），但是在一些复杂环境下的字符识别，在当今还没有人敢说自己能做的很好。现在大家都很少会把目光还放在如何对电子文档的文字识别该怎么进一步提高准确率了，因为他们把目光放在更有挑战性的领域。OCR传统方法在应对复杂图文场景的文字识别显得力不从心，越来越多人把精力都放在研究如何把文字在复杂场景读出来，并且读得准确作为研究课题，用学界术语来说，就是场景文本识别（文字检测+文字识别）。

参考文献

【OCR技术系列之一】字符识别技术总览 - Madcola - 博客园 (cnblogs.com)

深度学习在OCR中的应用 - 美团技术团队 (meituan.com)

AI时代的OCR识别技术浅析 - 战争热诚 - 博客园 (cnblogs.com)

OCR文字检测主要算法_woshiheweigui的博客-CSDN博客_ocr文字识别算法