python用ocr技术识别_使用Python和OCR实现图像识别

最新推荐文章于 2024-08-08 08:00:00 发布

weixin_39984098

最新推荐文章于 2024-08-08 08:00:00 发布

阅读量576

点赞数

文章标签： python用ocr技术识别

本文链接：https://blog.csdn.net/weixin_39984098/article/details/111422349

版权

本文介绍了如何使用Python结合Tesseract OCR引擎进行图像文字识别，特别是针对中文的支持。Tesseract起初由HP开发，后由Google维护并开源。文章涵盖了环境准备，包括安装Python库Pillow和Tesseract OCR，以及配置中文识别所需的数据文件。通过命令行工具，开发者可以实现基本的OCR功能。

摘要由CSDN通过智能技术生成

背景

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。OCR技术非常专业，一般多是印刷、打印行业的从业人员使用，可以快速的将纸质资料转换为电子资料。关于中文OCR，目前国内水平较高的有清华文通、汉王、尚书，其产品各有千秋，价格不菲。国外OCR发展较早，像一些大公司，如IBM、微软、HP等，即使没有推出单独的OCR产品，但是他们的研发团队早已掌握核心技术，将OCR功能植入了自身的软件系统。对于我们程序员来说，一般用不到那么高级的，主要在开发中能够集成基本的OCR功能就可以了。这两天我查找了很多免费OCR软件、类库，特地整理一下，今天首先来谈谈Tesseract，下一次将讨论下Onenote 2010中的OCR API实现。可以在这里查看OCR技术的发展简史。

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生－－2005年，Tesseract由美国内华达州信息技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

Tesseract目前已作为开源项目发布在Google Project，其项目主页在这里查看，其最新版本3.0已经支持中文OCR，并提供了一个命令行工具。

环境准备

PIL全称：Python Imaging Library，python图像处理库，这个库支持多种文件格式，并提供了强大的图像处理和图形处理能力。

由于PIL仅支持到Python 2.7，所以在PIL的基础上创建了Pillow库，支持最新Python 3.x。pip命令安装pip install pytesseract

pip install Pillow

安装识别引擎tesseract-ocrTesseract是开源的OCR引擎。Tesseract最初设计用于英文识别，经过改进引擎和训练系统，它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符，但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢，但是工作良好。

因为tesseract-ocr默认不支持中文识别。将下载到的文件：chi_sim.traineddata 放到Tesseract-OCR安装目录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下添加环境变量: TESSDATA_PREFIX, 值是工具的安装路径

实现步骤