今天的博客文章涉及我一直很好奇的内容 -光学字符识别,也称为 OCR。虽然 OCR 是一个专门的主题,但我的主要重点是一个简单的应用程序:将本质上是图像的文本屏幕截图转换回文本。
为实现这一目标,我们将利用Tesseract OCR 引擎的强大功能。最初由惠普开发的专有软件,后来作为开源软件发布,现在由谷歌维护。
对于像我这样使用 Windows 的用户,您需要使用 Tesseract Installer for Windows安装 Tesseract OCR 引擎。安装程序可以位于此页面上。请记住将 PATH 环境变量设置为您的安装位置。
现在让我们开始讨论代码。我们首先导入两个基本库:
import pytesseract
from PIL import Image
pytesseract 是 Tesseract OCR 引擎的 Python 包装器。它使用了将不同类型的文档(包括扫描的纸质文档、PDF 文件甚至图像)转换为文本的魔法。
PIL(或 Pillow 在这种情况下)是一个 Python 库,允许您打开、修改和保存许多不同的图像文件格式。对于此脚本,我们使用图像模块打开图像文件。
为了处理我们要使用的图像,我们添加:
img = Image