猿学－OCR的应用锦集及背后技术

最新推荐文章于 2024-05-07 15:48:52 发布

「已注销」

最新推荐文章于 2024-05-07 15:48:52 发布

阅读量697

点赞数

分类专栏： HTML/CSS JavaWeb ASP.NET Android IOS 云计算 NodeJS JavaScript Java PHP Python Hadoop RubyOnRails C/C++ SQLServer Linux 算法 UI/UE 业界咨询职场程序人生段子服务器设计模式开发手册观点评论创业幽默其它 MySQL Oracle 文章标签： OCR 人工智能 java 大数据云计算

本文链接：https://blog.csdn.net/ceshi986745/article/details/81627725

版权

这篇博客探讨了腾讯云在OCR（光学字符识别）技术上的应用，包括通用OCR和特定场景如身份证、驾照、名片等的识别。文章提到了OCR技术的历史、发展阶段和面临的挑战，如图像质量问题、文字类型多样性和复杂性。腾讯云提供了高准确率和快速的OCR服务，并在实际项目中取得了显著成果，如手写体识别在快递运单和银行支票的应用。

摘要由CSDN通过智能技术生成

今天分享的主要是OCR的部分。分享腾讯云在OCR上做的一些工作，以及腾讯云目前在云上面开放的OCR的一些服务。OCR简单来说就是让机器能看懂写的文字。我们手写的文字比较复杂，什么样子的都有。印刷的文字稍微简单一点，但也同样具有复杂性。今天主要讲的就是这种复杂性，这种服务在日常生活或者工程中遇到不同情况所产生如何处理这些复杂性的能力。

OCR的应用集锦及背后技术-04.jpg

这里分享两个做过的例子。身份证相对来讲很格式化、比较简单东西，可以明确知晓在哪里找到怎样的文字信息。后一个是医院的检查报告，医院的检查报告相对而言复杂一点，它的复杂度在于不只是处理一个医院的一种检查报告，而是需要把不同的医院的检查报告全部做统一处理。这就增加了很大的难度。

OCR的应用集锦及背后技术-05.jpg

在做正式的介绍之前，先说一说关于OCR的历史。OCR历史回溯起来还是很久远的，最早在六七十年代就有过实际的应用。大家都写过信，邮编号码在信封的左上角。这就是最早的OCR的应用。这种技术被使用在了一个非常窄的场景里面，只是要求把填在空格里的数字稳定的有效的检索、识别出来。当时的识别概率能达到92%-93%。这解决一个很大的问题，当时邮寄信都是通过识别码来进行投递的。

这个应用场景后来直接导致了2013年MINST的一个诞生。所有的框架都将它作为例子。它就是来源于这种最早的应用。一些复印机，扫描仪厂商，例如，东芝，佳能、富士通等希望将这项技术应用于扫描仪里面的文字转化成电子文字，便于客户存档。在PDF里面也用到这种技术。

时间到了2015年的时候，谷歌云盘里所有的文件免费提供OCR的服务。即便是提供免费服务仍是一种窄场景，只能使用在Google Doc存储的文件。到今年的5月23日，腾讯云公布了OCR免费接入，以及其它很多AI类的图像应用免费接入。这就意味着可以用手机移动终端或者任何的终端设备采集一些文字的图片后上传到云进行解析。

OCR的应用集锦及背后技术-06.jpg

我用两个维度来描述OCR的应用。一个维度是标明它是一种表格式的OCR还是通用式的OCR。所谓表格式的OCR比较好理解，就是说要识别的这个东西里面是一种表格制式的，它有特定的规格，什么位置写在什么内容。通用OCR的话就没有这种要求，随便拍一张照片里任何的文字都需要提取出来，并且告知那个文字或者那段文字在哪里。这是一个维度。另外一个维度是印刷体维度和手写体维度。这个比较好理解，但是有很多的应用里面也是处于交界的位置上。手写为和印刷体还有一个交界是因为很多印刷体本身并不是一个非常常用的印刷体。而且可以设计成类似于花体字或者写得比较随意一点。比如说招牌，王老吉或者天津狗不理包子。本身的字体并不是常见的字体，可以算是手写体偏印刷体一点。

OCR难度肯定是表格式的会要容易一些。通用式的是要困难一些。同样手写体要困难一些，印刷体要简单一些，那么这个坐标系里面右下角的就是比较难的应用，左上角就是会稍微简单一点。有任何的OCR实际场景应用的时候，我们经常拜访客户。客户提出要解决某个问题的需求的时候，如果这个落到右下角的话就会比较难。如果落在左上角的话会比较容易解决一些。

OCR的应用集锦及背后技术-07.jpg

我们现在腾讯云提供的印刷体的服务基本上都是这些，常用的是通用OCR。往腾讯云里面发一张图片，他会把这个图片里面所有可识别的印刷体的文字全返回出来，并告诉你这个印刷体的文字在这个图片里的位置。除此之外还有一些证件类的，比如驾照、车牌、银行卡、名片等等这些，稍后会逐一的介绍这方面的应用。现在用这四个特征来描述我们的服务，第一我们要求服务是准确的；另外要求我们的服务是完备的，就是说能识别英文也能识别中文，也能识别