科普---互联网图片文字识别系统你造么

最新推荐文章于 2022-08-21 10:19:25 发布

NBer晓伟

最新推荐文章于 2022-08-21 10:19:25 发布

阅读量2.3k

点赞数 1

文章标签： OCR OCR扫描识别扫描识别系统文字识别系统扫描识别

本文链接：https://blog.csdn.net/nber727xw/article/details/39577513

版权

文通互联网图片文字识别系统

你不努力，别人就会超越你！

我明白、不是每一次付出的努力都会得到收货！

但是我始终相信每一次收货、都需要付出努力！

我们的OCR一直在努力改进、提升！

我们在一直按照我们的使命前行--------源于清华服务全球！

一、公司研发背景

1、公司简介

北京文通科技有限公司是享誉国内外的OCR（光学字符识别）技术生产商、文档影像技术和应用解决方案提供商。在与清华大学的携手合作过程中，文通科技成功地将"国家863计划"项目成果——"文字图像识别技术TH-OCR"产业化，真正实现了TH-OCR技术与市场应用的完美结合。

文通科技以TH-OCR和手写识别技术为核心，研发出多项产品并提供多种行业解决方案，依靠完善的服务体系，拓宽了产品技术应用领域。目前，文通科技已经拥有跨平台(包括Windows/Linux/Android/IOS及嵌入式平台)的智能图像处理、亚洲文字OCR、手写识别、二维条码识别等自有知识产权技术。公司业务深入至金融保险、智能交通、税务、公共安全、政府等行业领域。

2、行业背景

2.1、OCR技术由来已久

　　1929年，德国的科学家Tausheck首先提出了OCR的概念，并且申请了专利。几年后，美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别，转化成计算机内码。

　　在60～70年代，世界各国相继开始了OCR的研究，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

2.2、汉字OCR技术发展迅速

　　对于汉字的识别最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。

　　我国OCR技术自70年代才开始对数字、英文字母及符号的识别进行研究。

　　同国外相比，我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持，经过科研人员十多年的辛勤努力，汉字识别技术的发展和应用有了长足进步：目前系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到了98%以上。

2.3、OCR的“三级跳”

　　任何一项技术要从实验室走向市场，都要实现技术、产品和应用的“三级跳”。对于OCR技术来说也是如此。正如上面所说的，OCR在中国经历了几十年的发展，技术和产品已经非常成熟了，其识别率也已经达到相当高的水平，而在应用方面，却远远落后于欧美以及日本等国家。

从行业消费者的需求来看，电子政务、金融、保险、税务、工商等行业用户对信息识别的需求已越来越广泛，由此大力促使了识别技术的大规模的应用。而个人消费者对资料电子化、手写识别技术等需求拓展了OCR识别技术在这一领域的应用之路。

与此同时，网络时代的特征也在影响着OCR应用市场的前进步伐，政府、公司、家庭、个人均是网络时代的组成部分，因此，大家越来越重视信息安全方面的内容在网络上传播，政府也越来越重视网络舆情领域对民众的思想引导影响，在这样的环境下，传统的文字识别已经不能满足当下的使用需求，互联网图片文字识别系统应运而生！