实战：使用 OpenCV 和 PyTesseract 对文档进行OCR

最新推荐文章于 2024-06-19 23:22:46 发布

小白学视觉

最新推荐文章于 2024-06-19 23:22:46 发布

阅读量703

点赞数

文章标签： python 人工智能机器学习计算机视觉 opencv

本文链接：https://blog.csdn.net/qq_42722197/article/details/119194537

版权

本文介绍了如何使用Python的OpenCV和PyTesseract库对文档图像进行OCR处理，特别是对护照等复杂文档。通过Canny边缘检测和霍夫变换定位文档边缘，然后对特定区域进行OCR识别，提取关键信息如姓名、护照号。文章强调了预处理和选择合适OCR区域的重要性，并提到可以根据不同情况选择轮廓分析或对象检测等方法。

摘要由CSDN通过智能技术生成

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

随着世界各地的组织都希望将其运营数字化，将物理文档转换为数字格式是非常常见的。这通常通过光学字符识别 (OCR) 完成，其中文本图像（扫描的物理文档）通过几种成熟的文本识别算法之一转换为机器文本。当在干净的背景下处理打印文本时，文档 OCR 的性能最佳，具有一致的段落和字体大小。

在实践中，这种情况远非常态。发票、表格甚至身份证明文件的信息分散在整个文件空间中，这使得以数字方式提取相关数据的任务变得更加复杂。

在本文中，我们将探索一种使用 Python 为 OCR 定义文档图像区域的简单方法。我们将使用信息分散在整个文档空间的文档示例——护照。以下样本护照放置在白色背景中，模拟复印的护照副本。

从此护照图像中，我们希望获得以下字段：

名字/名字
姓氏
中文名
汉字的姓氏
护照号码

首先，我们将导入所有必需的包。最重要的包是用于计算机视觉操作的OpenCV和PyTesseract，它是强大的 Tesseract OCR 引擎的 Python 包装器。

from cv2 import cv2
import pytesseract
import pandas as pd
import numpy as np
import math
from matplotlib import pyplot as plt

接下来，我们将使用 cv2.imread 读取我们的护照图像。我们的第一个任务是从这个伪扫描页面中提取实际的护照文件区域。我们将通过检测护照的边缘并将其从图像中裁剪出来来实现这一点。

img = cv2.imread('images\Passport.png',0)
img_copy = img.copy()
img_canny = cv2.Canny(img_copy, 50, 100, apertureSize = 3)

OpenCV 库中包含的Canny 算法使用多阶段过程来检测图像中的边缘。使用的最后三个参数是较低阈值和较高阈值（分别为 minVal 和 maxValÿ

最低0.47元/天解锁文章

小白学视觉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫