OCR技术发展综述与达观数据的实践经验

最新推荐文章于 2024-06-14 18:46:26 发布

DatagrandRS

最新推荐文章于 2024-06-14 18:46:26 发布

阅读量1k

点赞数 1

分类专栏：达观智能推荐文章标签：人工智能

本文链接：https://blog.csdn.net/DatagrandRS/article/details/127280555

版权

本文回顾了OCR技术的发展历程，从早期的机械掩模到现代的深度学习应用，结合达观数据的工程实践，探讨了OCR在文本识别、智能文本处理和专业领域符号识别等方向的最新进展。文章指出，随着智能手机和深度学习技术的推动，OCR技术在卡证票据识别、无固定格式文档处理和开放场景识别等方面迎来新机遇，未来将在文档审阅、专业应用和自动驾驶等领域有更大发展空间。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

光学字符识别OCR技术（Optical Character Recognition）是指从图像中自动提取文字信息的技术。这项技术横跨了人工智能里的两大领域：CV（计算机视觉）和NLP（自然语言处理），综合使用了这两大领域中的很多技术成果。

在过往40余年的技术发展历程中，OCR始终具备很强的产业应用背景，是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域。近年来OCR技术已经在工业界成熟落地应用，学术界里对此的研究热度反而弱于其他方向。甚至有人认为OCR技术已经充分成熟，没有更多研究必要了。然而随着近年来智能文本处理IDP（Intelligent Document Processing）在工业界的逐步落地应用，OCR和IDP相结合的应用场景越来越多，用语义理解NLP的角度进一步去延伸OCR的应用，出现了很多更有产业应用价值的场景。本文回顾了OCR技术的发展历程，并结合达观数据在工程实践方面的经验，介绍与语义分析技术结合后，当前OCR技术的一些最新发展和落地经验。

OCR技术的发展历程

OCR技术的诞生其实比计算机的历史还要悠久，早在1930年代，德国发明家Tausheck（陶舍克）和美国工程师Handel（汉德）分别申请了最早的OCR专利，这比计算机的诞生还要早20年时间。因为当年还完全没有计算机以及相关外设（如今天广泛使用的扫描仪或高拍仪），所以最早提出的OCR技术采用的是机械掩模和模板匹配的方法来处理打字机输出的文档。当时的技术雏形离实际应用还比较遥远。

OCR技术真正开始进入办公应用是到了1960年代，引领这项技术的是美国IBM公司。随着二战后美国经济的腾飞，计算机开始进入企业办公领域，在一些日常处理量大且步骤繁琐的场景下OCR开始发挥应用价值。例如1965年纽约世博会展出的IBM1287机器就能自动识别英文字母和数字，且准确率很高。此后逐步被用于一些订单编号的识别派发，和信封邮政编码的识别和邮件分拣等任务中。

1980年代起，随着日本经济尤其是电子技术的飞跃，富士通、日立、东芝、NEC等日本科技公司纷纷入场。这个时期的研究特点是图像采集的电子器件得到快速发展，光栅扫描、成像、电子化图像传输等信号采集技术成长迅速，相应的轮廓提取、结构分析等软件算法也开始出现。

在以精密电器制造见长的日本企业推动下，扫描仪等采集设备的效果、速度、成本有了长足的进步，对标准打印字符的识别效果越来越好，OCR系统开始普及应用。和其他很多高科技领域里“先从大学有了早期理论研究突破，然后逐步在产业界孵化出实用系统”的方式不同，在这个阶段，OCR技术始终是由工业界主导并取得了良好的应用效果。唯一的例外是对手写字符的识别。因为手写字符的变化太大，各种连笔、涂改、变形等让计算机辨认确实太难（甚至过于潦草的情况下让人辨识都很难），所以作为OCR领域的研究分支，成为了学术界的一个研究热点。尤其1990年代模式识别（Pattern Recognition）兴起，激发了学术研究界对手写字符识别的热情。此时出现大名鼎鼎的MNIST数据集，由美国国家标准与技术研究所（NIST，National Institute of Standards and Technology）发起整理了来自250个不同人的手写数字图片。

MNIST是OCR乃至模式分类领域最知名的入门数据集

此后大量的模式分类以及图像处理论文都以MNIST作为基础，进行各类特征抽取和模式分类的算法研究。至今一些大学人工智能的入门课程还会用MNIST数据集来跑试验，可谓经久不衰。

为什么只有手写字符集，不搞打印字符测试数据集？因为对打印字符的识别准确率已经极高（99.9%以上），没有科研必要了……

此处顺便一提，百度创始人李彦宏1996年在美国IDD公司工作时也参与了OCR技术研究，其中一篇优秀的研究成果发表在机器学习界知名学术期刊IEEE Transaction PAMI上。

百度李彦宏的OCR论文，发表于IEEE Trans on PAMI

21世纪后，OCR被进一步应用于各行各业里卡证票据的识别。针对的是日常生活中频繁使用到的发票、身份证、银行卡、营业执照、房产证、驾驶证、汽车牌照等实体证件。在这个阶段，图像扫描技术已经高度成熟了，所以技术研究基本集中在软件算法方面，并细分为信息检测（Detection）和识别（Recognition）两个技术分支分别发展，本文后面有更详细的技术介绍。

因为大部分常见的卡证票据都有相对固定的格式布局，所以通常只需要有足够多的训练样本，通过样本标注生成元素的模板定位，就能解决绝大部分问题，不用大费周折使用“智能化”的检测算法。通俗地说，这类应用场景是”数据为王”。

自2015年之后OCR技术和应用又迎来了巨大的变化，这次主要来自两个因素的推动。第一个因素是移动手机拍照的普及。在此之前，OCR的图像通常来自于扫描仪、高拍仪等企业级专用采集设备，图像的质量非常高，但因为固定在办公桌面使用，不够方便灵活，限制了应用场景，所以此前的OCR集中于企业级商用。而智能手机的迅速普及，让我们每个人都有了一个“拍摄+上传”的一体化终端，为OCR的应用普及带来了新的历史机遇，随之而来产生了很多新的应用场景。例如各种个人证照、文件等的自助式拍摄和上传，用于远程